CN112597629A

CN112597629A - 一种导线覆冰有无决策树模型及对导线覆冰有无判定和预测导线覆冰持续时间的方法

Info

Publication number: CN112597629A
Application number: CN202011392538.3A
Authority: CN
Inventors: 王熹; 肖锐; 曹小群; 乐海洪; 张庭; 程铁洪; 孙学勇; 黄磊; 高革命; 刘志腾; 赵超
Original assignee: PowerChina Jiangxi Electric Power Engineering Co Ltd
Current assignee: PowerChina Jiangxi Electric Power Engineering Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-04-02
Anticipated expiration: 2040-12-01
Also published as: CN112597629B

Abstract

本发明公开了一种导线覆冰有无决策树模型，包括以下步骤，(1)数据预处理；(2)获得导线覆冰有无总样本的基本参数；(3)获取每个变量的基尼系数；(4)选取加权平均基尼系数最小的变量作为最优分割属性，开始树的第一层分叉；(5)第一层分叉；(6)重复步骤(3)‑(5)，继续进行深一层的分叉，直至达到决策树终止条件，就完成了决策树模型的生成。本发明还公开了一种基于决策树及回归模型的导线覆冰预警方法对导线覆冰有无判定的方法和预测导线覆冰持续时间的方法。本发明通过基尼系数来衡量每个变量的信息量，选取基尼系数最小的变量作为最优分割属性，以该变量作为决策树的分支节点，继续进行上述分割，直至达到决策树终止分割条件，则完成模型建立过程。

Description

一种导线覆冰有无决策树模型及对导线覆冰有无判定和预测导线覆冰持续时间的方法

技术领域

本发明属于电力工程信息处理技术领域，具体涉及一种导线覆冰有无决策树模型。本发明还涉及一种基于导线覆冰有无决策树模型对导线覆冰有无判定和预测导线覆冰持续时间的方法。

背景技术

导线覆冰是影响输电线路安全稳定运行的主要自然灾害之一，可能导致输电线路发生舞动、覆冰闪络、脱冰跳跃、断线甚至倒塔等多种事故，对电网安全构成严重的危害。因此有必要对输电线路覆冰情况进行提前预警，进而有针对性的提出相应的覆冰应对方案，但是由于输电线路覆冰的产生过程具有动态性、不确定性、非线性、突变及间歇等特性，使得输电线路覆冰预测模型复杂且准确度不高。输电线路的覆冰受诸多因素的影响，比如：气温、湿度、风速及风向、冷暖空气对流、环流、海拔高程、经纬度、电场及负荷电流等气象因素、地形因素以及导地线自身因素。如何进行导线覆冰的准确预警，从而采取防冰措施，是提高抗冰能力的关键。同时目前针对导线覆冰的预测只停留在覆冰厚度层面，而对于导线覆冰持续时间并没有相关研究，导线覆冰持续时间是影响覆冰线路运行的关键因素之一，较短时间的覆冰往往不会影响线路的正常运行，而较长时间的覆冰则会对线路造成重大损失。因此，有必要提出一种方法，综合考虑导线覆冰及其持续时间，来为线路覆冰预警提供更为精确的参考。

发明内容

本发明要解决的技术问题是提供一种基于决策树及回归模型的导线覆冰预警方法，进而大幅提高区域的抗冰能力。本发明要解决的另一个技术问题是提供一种基于决策树及回归模型的预测导线覆冰持续时间的方法。

为了实现上述目的，本发明的技术方案如下：

一种导线覆冰有无决策树模型，包括以下步骤，

(1)数据预处理：获取区域内气象站及覆冰观测站记载的导线覆冰期间相应每日的气象参数以及相应的导线覆冰测量结果设为总样本Y，包括离散变量Z_i(i＝1,2,3,4,5,6)和连续变量 X_j(j＝1,2,3,4,5,6,7)，其中，离散变量Z_i包括霜、雾、露、雨、雪、冰粒六种属性，所述变量依次定义为Z₁(1、0),Z₂(1、0),Z₃(1、0),Z₄(1、0),Z₅(1、0),Z₆(1、0)，变量中(1、0)表示是、否出现，出现用1表示，没出现用0表示；连续变量X_j包括观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速七种属性，所述变量依次定义为X₁、X₂、X₃、X₄、X₅、X₆、X₇；

确定易覆冰期间的总样本Y的组数和每个属性对应的基尼系数最小阈值；

(2)获得导线覆冰有无总样本的基本参数：其中，包括总样本Y的组数N_总，出现导线覆冰的组数N_有，没有导线覆冰的组数N_无；

(3)获取每个变量的基尼系数：

(3.1)对于离散变量，获得离散变量Z_i的基尼系数，在总样本Y中，样本组总数为N_总，即

对于离散变量Z_i的样本组L_s＝{Z_s(1)(1、0),Z_s(2)(1、0),...Z_s(i)(1、0)...Z_s(6)(1、0)}， Z_s(i)(1、0)为总样本Y中的第s组样本组的离散变量Z_i的样本值，0≤s≤N_总，直接按照样本的属性值进行分类，具体为样本组中出现离散变量Z_i的用1表示，没出现离散变量Z_i的用0表示；

在总样本Y中，出现离散变量Z_i(1)共有n_i总组，其中有导线覆冰的组数为n_i组，没有出现导线覆冰的的组数为n_i总-n_i组，因此出现离散变量Z_i的基尼系数为：

在总样本Y中，没有出现离散变量Z_i(0)的共有N_总-n_i总组，其中出现导线覆冰的组数为n′_i组，没有出现导线覆冰的组数为N_总-n_i总-n′_i组，因此没有出现离散变量Z_i(0)的基尼系数为：

综合以上式子，离散变量Z_i的加权平均基尼系数为：

(3.2)按步骤(3.1)所述方法，依次计算离散变量Z_i的样本组 L_s＝{Z_s(1)(1、0),Z_s(2)(1、0),...Z_s(i)(1、0)...Z_s(6)(1、0)}中，L_s为总样本Y中的第s组样本组，0≤s≤N_总，离散变量Z_i属性分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即 Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、 Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

对于离散变量Z₁霜，

对于离散变量Z₂雾，

对于离散变量Z₃露，

对于离散变量Z₄雨，

对于离散变量Z₅雪，

对于离散变量Z₆冰粒，

(3.3)对于连续变量X_j，获得连续变量X_j的基尼系数，在总样本Y中，总样本Y的组数为N_总，即

对于连续变量X_j的样本组L_s＝{X_s(1),X_s(2),...X_s(j)...X_s(7)}，L_s为总样本Y中的第s组样本组，0≤s≤N_总，直接按照样本的属性值进行分类，将总样本Y的总数 N_总个连续变量X_j的样本值从小到大进行排列x_1(j)、x_2(j)...x_s(j)...x_N总(j)，x_s(j)为总样本Y中的第s组样本组的连续变量X_j的样本值，0≤s≤N_总；

若有q个数据相同，则有N_总-q+1个不同的样本值，将连续变量X_j的N_总-q+1个不同的样本值x'_p(j)从小到大进行排列为x'_1(j)、x'_2(j)...x'_p(j)...x'_N总-q+1(j)，x'_p(j)为第p个不同的样本值， 0≤p≤N_总-q+1，将数据分成N_总-q个区间，取相邻两样本值的平均数做候选分界点，一个区间对应一个候选分界点，共有N_总-q个候选分界点

(3.4)对每个候选分界点

分别计算基尼系数；

(3.4.1)在N_总-q+1个不同的样本值

中，x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1，其中，在总样本Y，小于等于第p个候选分界点M_p的数据有a组，出现导线覆冰的有a₁组，没出现导线覆冰的有a-a₁组；

则小于等于第p个候选分界点M_p的连续变量X_j的基尼系数为：

(3.4.2)在N_总-q+1个不同的样本值

中，x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1，其中，在总样本Y中，大于第p个候选分界点M_p的数据有N_总-a组，出现导线覆冰的有b组，则不存在导线覆冰的有N_总-a-b组数据；

则大于第p个候选分界点M_p的连续变量X_j的基尼系数为：

(3.4.3)则第p个候选分界点M_p的连续变量X_j的加权平均基尼系数为：

(3.4.4)按步骤(3.4.1)-(3.4.3)计算N_总-q个候选分界点

的加权平均基尼系数，获得N_总-q个加权平均基尼系数，之后比较每个候选分界点的加权平均基尼系数，从N_总-q个加权平均基尼系数中选取加权平均基尼系数最小的候选分界点作为该连续变量属性的最终候选分界点；

(3.4.5)以此类推，得出所有连续变量属性的最终候选分界点和对应的加权平均基尼系数；

(4)将步骤(3.2)获得的六个离散变量Z_i的加权平均基尼系数和步骤(3.4.5)获得的七个连续变量X_j的最终候选分界点对应的加权平均基尼系数进行比较，选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为最优分割属性R₀，获得初始加权平均基尼系数Gini(R₀)_min(0)；R₀为初始最优分割属性，为离散变量Z_i或连续变量X_j中的一种属性，min(0)为初始最小值，开始树的第一层分叉；

(5)第一层分叉：在最优分割属性中，分别计算每个分叉属性中对应的总样本Y中所有变量的基尼系数，

(5.1)若初始最优分割属性R₀为离散变量Z_i中的一种属性，将总样本Y根据Z_i(0，1)的属性进行分组，

(5.1.1)在总样本Y中，出现离散变量Z_i(1)的样本组Y₁有d_i总组，其中，出现覆冰的有d_i组，未出现覆冰的有d_i总-d_i组；

(5.1.1.1)按步骤(3.1)-(3.2)计算样本组Y₁中，离散变量Z_i分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、 Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

(5.1.1.2)按步骤(3.3)-(3.4)计算样本组Y₁中，连续变量X_j各属性的最终候选分界点和对应的加权平均基尼系数；

(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为出现离散变量Z_i(1)属性下的第一层最优分割属性

获得出现离散变量Z_i(1)属性下的第一层最小加权平均基尼系数

开始树的第二层分叉；

其中，

的上标1表示出现离散变量Z_i(1)，(i＝1,2,3,4,5,6)属性，下标1表示第一层最优分割，min(1)为第一层最小值；

(5.1.2)未出现离散变量Z_i(0)的样本组Y-Y₁有N_总-d_i总组，其中，出现覆冰的有d'_i组，没有出现覆冰的有N_总-d_i总-d'_i组，

按步骤(5.1.1.1)-(5.1.1.3)，获得未出现离散变量Z_i(0)属性下的最小加权平均基尼系数

为未出现离散变量Z_i(0)属性下的第一层最优分割属性，开始树的第二层分叉；

其中，

的上标0表示未出现离散变量Z_i(0)属性，下标1表示第一层最优分割，min(1)为第一层最小值；

(5.2)若初始最优分割属性R₀为连续变量X_j中的一种属性，初始加权平均基尼系数Gini(R₀)_min(0)对应的初始分界点为M_min(0)；

将总样本Y根据小于等于或大于初始分界点M_min(0)进行分组；

(5.2.1)在总样本Y中，连续变量X_j小于等于M_min(0)的样本组Y'₁数据有c_j总组，出现导线覆冰的有c_j组，没出现导线覆冰的有c_j总-c_j组；

(5.2.1.1)按步骤(3.1)-(3.2)计算样本组Y'₁中，离散变量Z_i霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

(5.2.1.2)按步骤(3.3)-(3.4)计算样本组Y'₁中，连续变量X_j各属性的最终候选分界点和对应的加权平均基尼系数；

(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为连续变量X_j小于等于初始分界点M_min(0)属性下的第一层最优分割属性

获得连续变量X_j小于等于初始分界点M_min(0)属性下的第一层最小加权平均基尼系数

开始树的第二层分叉；

其中，

的上标表示小于等于初始分界点M_min(0)，下标1表示第一层最优分割，min(1) 为第一层最小值；

(5.2.2)在总样本Y中，连续变量X_j大于M_min(0)的样本组Y-Y'₁数据有N_总-c_j总组，出现导线覆冰的有c'_j组，不存在导线覆冰的有N_总-c'_j总-c'_j组数据；

按步骤(5.2.1.1)-(5.2.1.3)，获得连续变量X_j大于初始分界点M_min(0)属性下的第一层最小加权平均基尼系数

开始树的第二层分叉；

其中，

为连续变量X_j大于初始分界点M_min(0)属性下的第一层最优分割属性，上标 >M_min(0)表示大于初始分界点M_min(0)，下标1表示第一层最优分割，min(1)为第一层最小值；

(6)重复步骤(3)-(5)，继续进行深一层的分叉，直至达到决策树终止条件，就完成了决策树模型的生成。

为了获得更好的技术效果，所述决策树终止条件，满足下列任一终止条件即终止，完成决策树模型的生成：

(1)当所有的节点都是纯的，即参与分叉的样品组的变量属性中不会同时出现有导线覆冰和无导线覆冰；

(2)没有变量属性可再用于对数据进行分割；

(3)参与分叉的样品组的个数或者变量属性的加权平均基尼系数小于对应变量属性的基尼系数最小阈值。

本发明还公开了一种基于决策树及回归模型的导线覆冰预警方法对导线覆冰有无判定的方法，其步骤为，

(1)确定需进行判定的区域；

(2)收集区域内气象站近期预报的导线覆冰相关的霜、雾、露、雨、雪、冰粒、观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速十三种属性的气象参数组；

(3)将需要进行预测的气象参数组代入上述建立的决策树模型，按照上述建立的决策树模型每一层的最优分割节点和最优分割属性对需预测的气象参数组进行分类，进而得到覆冰有无判定结果。

本发明还公开了一种基于决策树及回归模型的导线覆冰预警方法预测导线覆冰持续时间的方法，其步骤如下：

(1)利用导线覆冰有无决策树模型的预测结果，提取判定有导线覆冰的时间序列；

(2)统计时间序列中连续两次及以上出现导线覆冰的组数，若时间序列中有间断的，则重新开始统计，记为第二次导线覆冰过程；

(3)将步骤2得出的组数乘以预报参数组的间隔时间即得到一次导线覆冰的持续时间；

若预报序列存在间断导线覆冰现象，则分别记列导线覆冰持续时间。

本发明导线覆冰有无预测的数据时间尺度要与构建模型所选取的数据时间尺度保持一致。本发明导线覆冰持续时间及持续次数预测，其预测的准确性取决于决策树模型判定导线覆冰有无的准确性，导线覆冰持续时间的精度取决于构建模型和预测所选取的数据时间尺度，如本发明以日为单位则导线覆冰持续时间的预测精度就为天。

本发明公开了一种基于决策树模型的导线覆冰预警方法，该方法通过区域气象站台或覆冰观测站收集与导线覆冰相关气象参数及对应的导线覆冰信息，利用决策树算法建立导线覆冰有无判别模型。决策树模型通过基尼系数来衡量每个变量的信息量，选取基尼系数最小的变量作为最优分割属性，以该变量作为决策树的分支节点，继续进行上述分割，直至达到决策树终止分割条件，则完成模型建立过程。利用上述方法生成的决策树模型，只需将覆冰相关的气象参数代入该模型，就能利用生成的决策树模型对该组气象参数下的导线覆冰有无进行判定。在判定结束后，可以统计预报期间在时间序列上连续存在导线覆冰的组数，即得到导线覆冰次数和每次导线覆冰持续时间。

附图说明

图1为本发明实施例导线覆冰有无判定决策树模型建立流程图；

图2为本发明实施例导线覆冰决策树模型初始层和前三层结构图；

图3为本发明实施例导线覆冰决策树模型后五层结构图；

图4为本发明实施例导线覆冰有无模型对导线覆冰有无进行判定流程图；

图5为本发明实施例模型预测结果示意图。

具体实施方式

实施例1

一种导线覆冰有无决策树模型，包括以下步骤，

(1)数据预处理：通过收集区域内所有覆冰站的气象监测数据设为总样本Y，以日值为组，对所有参数进行分类整理，其中包括定性参数和定量参数，各参数见下表，其中，定性参数为离散变量Z_i，(i＝1,2,3,4,5,6)，包括霜、雾、露、雨、雪、冰粒六种属性，所述离散变量 Z_i，(i＝1,2,3,4,5,6)依次定义为Z₁(1、0),Z₂(1、0),Z₃(1、0),Z₄(1、0),Z₅(1、0),Z₆(1、0)，变量中(1、0) 表示是否出现，出现用1表示，没出现用0表示；定量参数为连续变量X_j，(j＝1,2,3,4,5,6,7)，包括观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速七种属性，所述变量依次定义为X₁、X₂、X₃、X₄、X₅、X₆、X₇；

表1导线覆冰相关气象参数表

(2)构建导线覆冰有无决策树判定模型，见图1，选取区域内所有气象站历史的导线覆冰相关参数来进行决策树模型的构建和训练，

同时确定易覆冰期间的总样本Y的组数和每个属性对应的基尼系数最小阈值；

获得获得导线覆冰有无总样本的基本参数：其中，包括总样本Y的组数N_总，出现导线覆冰的组数N_有，没有导线覆冰的组数N_无；

(3)、获取每个变量的基尼系数：

(3.1)对于离散变量，获得离散变量Z_i，(i＝1,2,3,4,5,6)的基尼系数，在总样本Y中，样本组总数为N_总，

对于离散变量Z_i，(i＝1,2,3,4,5,6)的样本组L_s＝{Z_s(1)(1、0),Z_s(2)(1、0),...Z_s(i)(1、0)...Z_s(6)(1、0)}，s为总样本Y中的第s组样本组，0≤s≤N_总， i＝1、2、3、4、5、6，直接按照样本的属性进行分类，具体为样本组中出现离散变量Z_i，(i＝1、2、3、4、5、6) 的用1表示，没出现离散变量Z_i，(i＝1、2、3、4、5、6)的用0表示；

在总样本Y中，出现离散变量Z_i(1)，(i＝1、2、3、4、5、6)共有n_i总，(i＝1、2、3、4、5、6)组，其中有导线覆冰的组数为n_i，(i＝1、2、3、4、5、6)组，没有出现导线覆冰的的组数为n_i总-n_i，(i＝1,2,3,4,5,6)组，因此出现离散变量Z_i，(i＝1,2,3,4,5,6)的基尼系数为：

在总样本Y中，没有出现离散变量Z_i(0)，(i＝1,2,3,4,5,6)的共有N_总-n_i总，(i＝1,2,3,4,5,6)组，其中出现导线覆冰的组数为n′_i，(i＝1,2,3,4,5,6)组，没有出现导线覆冰的组数为 N_总-n_i总-n′_i，(i＝1,2,3,4,5,6)组，因此没有出现离散变量Z_i(0)，(i＝1,2,3,4,5,6)的基尼系数为：

综合以上式子，离散变量Z_i，(i＝1,2,3,4,5,6)的加权平均基尼系数为：

(3.2)按步骤(3.1)所述方法，依次计算离散变量Z_i，(i＝1,2,3,4,5,6)的样本组L_s＝{Z_s(1)(1、0),Z_s(2)(1、0),...Z_s(i)(1、0)...Z_s(6)(1、0)}中，Z_s(i)(1、0)为总样本Y中的第s组样本组离散变量Z_i的样本值，0≤s≤N_总，i＝1，2，3，4，5，6中，离散变量Z_i，(i＝1,2,3,4,5,6)属性分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

对于离散变量Z₁霜，

对于离散变量Z₂雾，

对于离散变量Z₃露，

对于离散变量Z₄雨，

对于离散变量Z₅雪，

对于离散变量Z₆冰粒，

(3.3)对于连续变量X_j，(j＝1,2,3,4,5,6,7)，获得连续变量X_j，(j＝1,2,3,4,5,6,7)的基尼系数，在总样本Y中，总样本Y的组数为N_总，即

对于连续变量X_j，(j＝1,2,3,4,5,6,7)的样本组L_s＝{X_s(1),X_s(2),...X_s(j)...X_s(7)}，s为总样本Y中的第s组样本组， 0≤s≤N_总，j＝1，2，3，4，5，6,7，直接按照样本的属性值进行分类，将总样本Y的总数N_总个连续变量X_j，(j＝1,2,3,4,5,6,7)的样本值从小到大进行排列

x_s(j)为总样本Y中的第s组样本组离散变量Z_i的样本值，0≤s≤N_总，j＝1，2，3，4，5，6,7；

若有q个数据相同，则有N_总-q+1个不同的样本值，将连续变量X_j，(j＝1,2,3,4,5,6,7)的 N_总-q+1个不同的样本值x'_p(j)从小到大进行排列为

x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1，j＝1，2，3，4，5，6,7，将数据分成N_总-q个区间，取相邻两样本值的平均数做候选分界点，一个区间对应一个候选分界点，共有N_总-q个候选分界点

(3.4)N_总-q+1个不同的样本值x'_p(j)从小到大进行排列为

x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1，j＝1，2，3，4，5，6,7，对每个候选分界点

分别计算基尼系数，

(3.4.1)在N_总-q+1个不同的样本值

中，x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1,(j＝1，2，3，4，5，6,7)，其中，在总样本Y，小于等于第p个候选分界点M_p(p＝1，2,...,N_总-q)的数据有a组，出现导线覆冰的有a₁组，没出现导线覆冰的有a-a₁组；

则小于等于第p个候选分界点M_p(p＝1，2,...,N_总-q)的连续变量X_j，(j＝1,2,3,4,5,6,7)的基尼系数为：

(3.4.2)在N_总-q+1个不同的样本值

中，x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1，j＝1，2，3，4，5，6,7，其中，在总样本Y中，大于第p个候选分界点M_p(p＝1，2,...,N_总-q)的数据有N_总-a组，出现导线覆冰的有b组，则不存在导线覆冰的有N_总-a-b组数据；

则大于第p个候选分界点M_p(p＝1，2,...,N_总-q)的连续变量X_j，(j＝1,2,3,4,5,6,7)的基尼系数为：

(3.4.3)则第p个候选分界点M_p(p＝1，2,...,N_总-q)的连续变量X_j，(j＝1,2,3,4,5,6,7)的加权平均基尼系数为：

(3.4.4)按步骤(3.4.1)-(3.4.3)计算N_总-q个候选分界点

(4)将步骤(3.2)获得的六个离散变量Z_i，(i＝1,2,3,4,5,6)的加权平均基尼系数和步骤(3.4.5) 获得的七个连续变量X_j，(j＝1,2,3,4,5,6,7)的最终候选分界点对应的加权平均基尼系数进行比较，选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为最优分割属性R₀，获得初始加权平均基尼系数Gini(R₀)_min(0)；R₀为初始最优分割属性，为离散变量Z_i，(i＝1,2,3,4,5,6)或连续变量X_j，(j＝1,2,3,4,5,6,7)中的一种属性，min(0)为初始最小值，开始树的第一层分叉；

(5.1)若初始最优分割属性R₀为离散变量Z_i，(i＝1,2,3,4,5,6)中的一种属性，将总样本Y根据Z_i(0，1)，(i＝1,2,3,4,5,6)的属性进行分组，

(5.1.1)在总样本Y中，出现离散变量Z_i(1)，(i＝1,2,3,4,5,6)的样本组Y1有 d_i总，(i＝1,2,3,4,5,6)组，其中，出现覆冰的有d_i，(i＝1,2,3,4,5,6)有组，未出现覆冰的有d_i总-d_i，(i＝1,2,3,4,5,6)组；

(5.1.1.1)按步骤(3.1)-(3.2)计算样本组Y₁中，离散变量Z_i，(i＝1,2,3,4,5,6)分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

(5.1.1.2)按步骤(3.3)-(3.4)计算样本组Y₁中，连续变量X_j，(j＝1,2,3,4,5,6,7)各属性的最终候选分界点和对应的加权平均基尼系数；

(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为出现离散变量Z_i(1)，(i＝1,2,3,4,5,6)属性下的第一层最优分割属性

获得出现离散变量Z_i(1)，(i＝1,2,3,4,5,6)属性下的第一层最小加权平均基尼系数

开始树的第二层分叉；

其中，

(5.1.2)未出现离散变量Z_i(0)，(i＝1,2,3,4,5,6)的样本组Y-Y₁有N_总-d_i总，(i＝1,2,3,4,5,6)组，其中，出现覆冰的有d'_i，(i＝1,2,3,4,5,6)组，没有出现覆冰的有N_总-d_i总-d'_i，(i＝1,2,3,4,5,6)组，

按步骤(5.1.1.1)-(5.1.1.3)，获得未出现离散变量Z_i(0)，(i＝1,2,3,4,5,6)属性下的最小加权平均基尼系数

为未出现离散变量Z_i(0)，(i＝1,2,3,4,5,6)属性下的第一层最优分割属性，开始树的第二层分叉；

其中，

的上标0表示未出现离散变量Z_i(0)，(i＝1,2,3,4,5,6)属性，下标1表示第一层最优分割，min(1)为第一层最小值；

(5.2)若初始最优分割属性R₀为连续变量X_j，(j＝1,2,3,4,5,6,7)中的一种属性，初始加权平均基尼系数Gini(R₀)_min(0)对应的初始分界点为M_min(0)；

将总样本Y根据小于等于或大于初始分界点M_min(0)进行分组；

(5.2.1)在总样本Y中，连续变量X_j，(j＝1,2,3,4,5,6,7)小于等于M_min(0)的样本组Y'₁数据有 c_j总，(j＝1,2,3,4,5,6,7)组，出现导线覆冰的有c_j，(j＝1,2,3,4,5,6,7)组，没出现导线覆冰的有 c_j总-c_j，(j＝1,2,3,4,5,6,7)组；

(5.2.1.1)按步骤(3.1)-(3.2)计算样本组Y'₁中，离散变量Z_i，(i＝1,2,3,4,5,6)分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

(5.2.1.2)按步骤(3.3)-(3.4)计算样本组Y'₁中，连续变量X_j，(j＝1,2,3,4,5,6,7)各属性的最终候选分界点和对应的加权平均基尼系数；

(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为连续变量X_j，(j＝1,2,3,4,5,6,7)小于等于初始分界点M_min(0)属性下的第一层最优分割属性

获得连续变量X_j，(j＝1,2,3,4,5,6,7)小于等于初始分界点 M_min(0)属性下的第一层最小加权平均基尼系数

开始树的第二层分叉；

其中，

(5.2.2)在总样本Y中，连续变量X_j，(j＝1,2,3,4,5,6,7)大于M_min(0)的样本组Y-Y'₁数据有N_总-c_j总，(j＝1,2,3,4,5,6,7)组，出现导线覆冰的有c'_j，(j＝1,2,3,4,5,6,7)组，不存在导线覆冰的有N_总-c'_j总-c'_j，(j＝1,2,3,4,5,6,7)组数据；

按步骤(5.2.1.1)-(5.2.1.3)，获得连续变量X_j，(j＝1,2,3,4,5,6,7)大于初始分界点M_min(0)属性下的第一层最小加权平均基尼系数

开始树的第二层分叉；

其中，

为连续变量X_j，(j＝1,2,3,4,5,6,7)大于初始分界点M_min(0)属性下的第一层最优分割属性，上标>M_min(0)表示大于初始分界点M_min(0)，下标1表示第一层最优分割，min(1)为第一层最小值；

(6)重复步骤(3)-(5)，继续进行深一层的分叉，直至达到决策树终止条件，就完成了决策树模型的生成；

(7)决策树终止条件，满足下列任一终止条件即完成决策树模型的生成：

(7.1)当所有的节点都是纯的，即参与分叉的样品组的变量属性中不会同时出现有导线覆冰和无导线覆冰；

(7.2)没有属性可再用于对数据进行分割；

(7.3)参与分叉的样品组的个数或者变量属性的加权平均基尼系数小于对应变量属性的基尼系数最小阈值；

实施例2

一种基于决策树及回归模型的导线覆冰预警方法对导线覆冰有无判定的方法，其步骤为，

(1)确定需进行判定的区域；

实施例3

一种基于决策树及回归模型的导线覆冰预警方法预测导线覆冰持续时间的方法，其步骤如下：

(2)计时间序列中连续两次及以上出现导线覆冰的组数，若时间序列中有间断的，则重新开始统计，记为第二次导线覆冰过程；

实施例4

本发明基于决策树分类理论，能综合考虑导线覆冰影响因素中的离散变量和连续变量，进而对区域内的冰区进行较为准确的划分，本发明以江西省历史导线覆冰数据为例，对本发明进行说明，流程见附图1。

一种导线覆冰有无决策树模型，包括以下步骤，

(1)数据预处理：获取江西省区域内气象站及覆冰观测站记载的导线覆冰期间相应每日的气象参数以及相应的导线覆冰测量结果，气象参数见实施例1中的表1所示，

变量中(1、0)表示是否出现，出现用1表示，没出现用0表示；

规定决策树算法的边界条件：通过试错，确定子节点最小个案数为5，父节点最小个案数为10；基尼系数最小阈值为0.0001，当决策树模型达到上述边界条件，决策树停止分类；

决策树中排列在上一层的节点为下一层的父节点，下一层为上一层的子节点；子父节点的最小个案树需根据模型样本个数不断试错确定，设置太大，容易出现层数太少，导致决策树失真，层数太多，会导致决策树过于茂盛，从而出现过度拟合的现象；

(2)构建导线覆冰有无决策树判定模型，见图1，以江西省区域内2008年导线覆冰期间的气象数据为例，总样本Y组数N_总＝584组，其中出现导线覆冰的有N_有＝55组，没有导线覆冰的有N_无＝529组；

(3)获取变量的基尼系数：

(3.1)对于离散变量，获得离散变量Z_i，(i＝1,2,3,4,5,6)的基尼系数，以雾为例，雾为离散变量Z₂，在总样本Y中，离散变量Z₂的总样本组数为N_总＝584组，出现雾的天气现象共有 n_2总＝361次，其中出现导线覆冰的次数为n₂＝40组，没有出现导线覆冰的次为n_2总-n₂＝321组，因此出现雾的基尼系数为：

总样本Y中，没有出现离散变量Z₂的共有N_总-n_2总＝223组，即无雾天气出现223次，其中出现导线覆冰的次数为n′₂＝15组，没出现导线覆冰的次数为N_总-n_2总-n′₂＝208组，因此无雾的基尼系数为：

综合以上式子，因此离散变量Z₂的加权平均基尼系数为：

(3.2)按步骤(3.1)相同方法依次计算霜(1、0)、露(1、0)、雨(1、0)、雪(1、0)、冰粒(1、0)等离散变量的加权平均基尼系数，各变量的加权平均基尼系数如表2所示：

表2离散变量的加权平均基尼系数计算结果

变量名称	霜	雾	露	雨	雪	冰粒
							加权平均基尼系数	0.1680	0.1697	0.1666	0.1657	0.1553	0.1615

；

(3.3)对于连续变量X_j，(j＝1,2,3,4,5,6,7)，获得连续变量X_j，(j＝1,2,3,4,5,6,7)的基尼系数，本实施例以样本属性X₄为平均相对湿度为例，本算例中X₄平均相对湿度的样本值按照从小到大排序后的值如表3所示：

表3

16	22	23	29	30	32	33	39
								41	42	43	46	48	49	50	51
53	54	55	56	57	58	59	60
								61	62	63	64	65	66	67	68
69	70	71	72	73	74	75	76(1)
								77	78(1)	79(1)	80	81	82	83(5)	84(1)
85	86(1)	87	88(7)	89(2)	90(1)	91(1)	92(2)
								93(4)	94(3)	95(1)	96(4)	97(2)	98(2)	99(16)	100

注：括号里的数表示在该湿度下出现导线覆冰的组数

在总样本Y中，样本组总数为N_总＝584组，按实施例1步骤(3.3)确定有64个不同的平均相对湿度值，取相邻两个湿度值的平均值作为候选分界点，例如16和22之间，确定候选分界点为19，因此平均相对湿度共有63个候选分界点，但由于平均相对湿度值在16-75之间均为无导线覆冰组，因此无需选取这些节点进行分割，仅需要对开始出现导线覆冰的节点进行基尼系数的计算，即对平均相对湿度值在76-100之间的样本值进行筛选；因此对于属性为平均相对湿度值的样本，共有25个不同的平均相对湿度样本值，将连续变量X₄的25个不同的样本值从小到大进行排列为x'_1(j)、x'_2(j)...x'_p(j)...x'_N总-q+1(j)，x'_p(j)为第p个不同的样本值，0≤p≤25，将数据分成24个区间，取相邻两样本值的平均数做候选分界点，一个区间对应一个候选分界点，共有 24个候选分界点M＝{M₁、M₂...M_l...M₂₄}，

(3.4)在平均相对湿度(X₄)中，有意义的样本值为平均相对湿度值在76-100的共25个，具有24个候选分界点和24个区间，之后对每个候选分界点分别计算基尼系数；

(3.4.1)现取平均相对湿度值为83的样本值进行举例，小于候选分界点83.5的样本数据有a＝282组，其中出现导线覆冰的有a₁＝8组，没有出现导线覆冰的有a-a₁＝274组；

则小于等于候选分界点83.5的连续变量X₄的基尼系数为：

(3.4.2)大于候选分界点83.5的样本数据有N_总-a＝302组，其中，出现导线覆冰的有 b＝47组，则不存在导线覆冰的有N_总-a-b＝255组数据；

则大于候选分界点83.5的连续变量X₄的基尼系数为：

(3.4.3)则候选分界点83.5的连续变量X₄的加权平均基尼系数为：

(3.4.4)按步骤(3.4.1)-(3.4.3)计算每个候选分界点的加权平均基尼系数，比较每个候选分界点的加权平均基尼系数，选取加权平均基尼系数最小的候选分界点作为最终候选分界点；

平均相对湿度属性X₄的各候选分界点的加权平均基尼系数计算结果如表4所示：

表4平均相对湿度属性X₄的各候选分界点的加权平均基尼系数计算结果表

通过上表可知，平均相对湿度属性X₄的最优分割节点为X₄＝87.5，对应的加权平均基尼系数为0.1596；

按相同方法依次计算观测场海拔、平均气温、最高气温、最低气温、平均风速、最大风速等其他六个连续变量的加权平均基尼系数，各变量的加权平均基尼系数如表5所示：

表5连续变量基尼系数计算结果

；

(4)将步骤(3.2)获得的六个离散变量Z_i，(i＝1,2,3,4,5,6)的加权平均基尼系数和步骤(3.4.5) 获得的七个连续变量X_j，(j＝1,2,3,4,5,6,7)的最终候选分界点对应的加权平均基尼系数进行比较，见表2和表5，对比每个变量最优分割点对应的加权平均基尼系数，选取加权平均基尼系数最小的变量作为第一层树的最优分割属性；

经计算可知，平均气温属性X₂的加权平均基尼系数最小，离散变量X₂的加权平均基尼系数为0.1266，分界点为0.35℃，因此将平均气温属性X₂作为最优分割属性R₀，初始加权平均基尼系数Gini(R₀)_min(0)＝0.1266，开始树的第一层分叉，见附图2；

由于最优分割属性R₀为平均气温属性X₂，为连续变量X_j，(j＝1,2,3,4,5,6,7)中的一种属性，因此按实施例1中步骤(5.2)进行第一层分叉；

初始加权平均基尼系数Gini(R₀)_min(0)＝0.1266，对应的初始分界点为M_min(0)＝0.35℃，

将总样本Y根据小于等于或大于初始分界点M_min(0)进行分组；

(5.1)在总样本组Y中，平均气温属性X₂≤0.35℃的样本组Y'₁数据有c_2总＝139组，出现导线覆冰的有c₂＝45组，没出现导线覆冰的有c_2总-c₂＝94组；

(5.1.1)按步骤(3.3)-(3.4)计算样本组Y'₁中，离散变量Z_i，(i＝1,2,3,4,5,6)分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

(5.1.2)按步骤(3.3)-(3.4)计算样本组Y'₁中，连续变量X_j，(j＝1,2,3,4,5,6,7)各属性的最终候选分界点和对应的加权平均基尼系数；

计算得到各离散变量和连续变量的加权平均基尼系数如表6和表7所示，

表6离散变量基尼系数

变量名称

霜

雾

露

雨

雪

冰粒

基尼系数

0.1682

0.1829

*

0.1914

0.1816

0.1082

表7连续变量基尼系数

*表示纯节点，无法继续分割。

(5.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为连续变量X_j小于等于初始分界点M_min(0)属性下的第一层最优分割属性

开始树的第二层分叉；

本实施例中，

对应的第一层分界点为M_min(1)＝43.5米，第一层最优分割属性

为观测场海拔，

(5.2)在总样本组Y中，连续变量X₂平均气温>0.35℃的样本组Y-Y'₁数据有N_总-c_j总＝445 组；出现导线覆冰的有c'₂＝5组，不存在导线覆冰的有N_总-c'_2总-c'₂＝440组数据，

按步骤(5.1.1)-(5.1.2)，计算得到各离散变量和连续变量的加权平均基尼系数如表8和表9所示：

表8离散变量基尼系数

变量名称	霜	雾	露	雨	雪	冰粒
							基尼系数	0.0282	0.0281	0.0281	0.0280	0.0276	0.0284

表9连续变量基尼系数

按步骤(5.1.3)获得连续变量X₂平均气温大于初始分界点M_min(0)＝0.35℃属性下的第一层最小加权平均基尼系数

开始树的第二层分叉；

其中，

为连续变量X₂大于初始分界点M_min(0)＝0.35℃属性下的第一层最优分割属性，本实施例中第一层最优分割属性

为平均气温，第一层最小加权平均基尼系数

对应的第一层分界点为M_min(1)＝0.65℃；

(6)本实施例中，

“平均气温小于等于0.35℃”的最优分割属性为观测场海拔，对应的第一层分界点为 M_min(1)＝43.5米；

而“平均气温大于0.35℃”的最优分割属性为平均气温，对应的第一层分界点为M_min(1)＝0.65℃；

再分别以观测场海拔、M_min(1)＝43.5米和平均气温、M_min(1)＝0.65℃分别开始树的第二层分叉；

(7)以此类推，重复步骤(5)-(6)，继续进行深一层的分叉，直至达到决策树终止条件，就完成了决策树模型的生成；

(8)决策树终止条件，满足下列任一终止条件即完成决策树模型的生成：

(8.1)当所有的节点都是纯的，即参与分叉的样品组的变量属性中不会同时出现有导线覆冰和无导线覆冰；

(8.2)没有属性可再用于对数据进行分割；

(8.3)参与分叉的样品组的个数或者变量属性的加权平均基尼系数小于对应变量属性的基尼系数最小阈值。

按照划分终止条件得到完整的导线覆冰有无决策树判定模型，得到的预测模型见图2和图 3。

实施例5导线覆冰有无模型预测

导线覆冰有无模型对导线覆冰有无进行判定，预测过程如下：

(1)确定需进行判定的区域；

(2)收集区域内气象站近期预报的导线覆冰相关气象参数；

(3)代入上述建立的决策树模型，进而得到导线覆冰有无的判定结果。

选取江西省境内某年区域某站点冬季气象数据来对模型的预测效果进行检验。共有该气象站导线覆冰期间37天的有效气象数据，见下表：

表9江西省境内某年区域某站点冬季气象数据

根据图2和图3所建立的决策树模型，对上述37组数据进行覆冰有无预测，以第一组为例，初始层分叉，第一组平均气温为1℃，大于0.35℃；第一层分叉，第一组平均气温大于0.65℃；第二层分叉，第一组平均气温小于1.15℃；第三层分叉，第一组平均风速为1.7m/s，小于2.35m/s，因此该组预测没有覆冰，而根据观测数据，该组实际也是没有出现覆冰。

同理，可得其他36组数据的预测结果。

预测过程见图4，预测值与实际值对比见图5。通过对比可知，实际值预测值的拟合度为 91.8％，模型能满足预测精度要求。

实施例6导线覆冰持续时间预测

导线覆冰持续时间预测的步骤如下：

(1)利用上述导线覆冰有无决策树模型的预测结果，提取判定有导线覆冰的时间序列；

(2)统计时间序列中连续2天以上出现导线覆冰的组数，时间序列中有间断的，则重新开始统计，记为第二次导线覆冰过程；

(3)将步骤2得出的组数乘于预报参数组的间隔时间即得到一次导线覆冰的持续时间；预报序列存在间断导线覆冰现象，则分别记列导线覆冰持续时间。

选取上述序列的一次导线覆冰过程，通过预测值可知该站在该年度一共经历三次导线覆冰过程，且每次导线覆冰时间持续增加，通过附图5可知，实际过程该站在该年度一共经历三次导线覆冰过程，且每次导线覆冰时间持续增加，与预测结果向吻合。在导线覆冰持续时间上，实际结果显示三次导线覆冰过程持续时间分别1、2、6天，预测结果显示三次导线覆冰过程持续时间分别为1、3、6天，预测结果较为可靠。

Claims

1.一种导线覆冰有无决策树模型，包括以下步骤，

(1)数据预处理：获取区域内气象站及覆冰观测站记载的导线覆冰期间相应每日的气象参数以及相应的导线覆冰测量结果设为总样本Y，包括离散变量Z_i(i＝1,2,3,4,5,6)和连续变量X_j(j＝1,2,3,4,5,6,7)，其中，离散变量Z_i包括霜、雾、露、雨、雪、冰粒六种属性，所述变量依次定义为Z₁(1、0),Z₂(1、0),Z₃(1、0),Z₄(1、0),Z₅(1、0),Z₆(1、0)，变量中(1、0)表示是、否出现，出现用1表示，没出现用0表示；连续变量X_j包括观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速七种属性，所述变量依次定义为X₁、X₂、X₃、X₄、X₅、X₆、X₇；

(3)获取每个变量的基尼系数：

对于离散变量Z_i的样本组L_s＝{Z_s(1)(1、0),Z_s(2)(1、0),...Z_s(i)(1、0)...Z_s(6)(1、0)}，L_s为总样本Y中的第s组样本组，0≤s≤N_总，直接按照样本的属性值进行分类，具体为样本组中出现离散变量Z_i的用1表示，没出现离散变量Z_i的用0表示；

综合以上式子，离散变量Z_i的加权平均基尼系数为：

(3.2)按步骤(3.1)所述方法，依次计算离散变量Z_i的样本组L_s＝{Z_s(1)(1、0),Z_s(2)(1、0),...Z_s(i)(1、0)...Z_s(6)(1、0)}中，L_s为总样本Y中的第s组样本组，0≤s≤N_总，离散变量Z_i属性分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

对于离散变量Z₁霜，

对于离散变量Z₂雾，

对于离散变量Z₃露，

对于离散变量Z₄雨，

对于离散变量Z₅雪，

对于离散变量Z₆冰粒，

对于连续变量X_j的样本组L_s＝{X_s(1),X_s(2),...X_s(j)...X_s(7)}，L_s为总样本Y中的第s组样本组，0≤s≤N_总，直接按照样本的属性值进行分类，将总样本Y的总数N_总个连续变量X_j的样本值从小到大进行排列

x_s(j)为总样本Y中的第s组样本组的连续变量X_j的样本值，0≤s≤N_总；

若有q个数据相同，则有N_总-q+1个不同的样本值，将连续变量X_j的N_总-q+1个不同的样本值x'_p(j)从小到大进行排列为

x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1，将数据分成N_总-q个区间，取相邻两样本值的平均数做候选分界点，一个区间对应一个候选分界点，共有N_总-q个候选分界点M＝{M₁、M₂...M_l...M_N总-q}，

(3.4)对每个候选分界点

分别计算基尼系数；

(3.4.1)在N_总-q+1个不同的样本值

则小于等于第p个候选分界点M_p的连续变量X_j的基尼系数为：

(3.4.2)在N_总-q+1个不同的样本值

则大于第p个候选分界点M_p的连续变量X_j的基尼系数为：

(3.4.4)按步骤(3.4.1)-(3.4.3)计算N_总-q个候选分界点

(5.1.1.1)按步骤(3.1)-(3.2)计算样本组Y₁中，离散变量Z_i分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

开始树的第二层分叉；

其中，

(5.1.2)未出现离散变量Z_i(0)的样本组Y-Y₁有N_总-d_i总组，其中，出现覆冰的有d′_i组，没有出现覆冰的有N_总-d_i总-d′_i组，

其中，

将总样本Y根据小于等于或大于初始分界点M_min(0)进行分组；

(5.2.1)在总样本Y中，连续变量X_j小于等于M_min(0)的样本组Y′₁数据有c_j总组，出现导线覆冰的有c_j组，没出现导线覆冰的有c_j总-c_j组；

(5.2.1.1)按步骤(3.1)-(3.2)计算样本组Y′₁中，离散变量Z_i霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

(5.2.1.2)按步骤(3.3)-(3.4)计算样本组Y′₁中，连续变量X_j各属性的最终候选分界点和对应的加权平均基尼系数；

开始树的第二层分叉；

其中，

的上标表示小于等于初始分界点M_min(0)，下标1表示第一层最优分割，min(1)为第一层最小值；

(5.2.2)在总样本Y中，连续变量X_j大于M_min(0)的样本组Y-Y′₁数据有N_总-c_j总组，出现导线覆冰的有c′_j组，不存在导线覆冰的有N_总-c'_j总-c'_j组数据；

开始树的第二层分叉；

其中，

为连续变量X_j大于初始分界点M_min(0)属性下的第一层最优分割属性，上标>M_min(0)表示大于初始分界点M_min(0)，下标1表示第一层最优分割，min(1)为第一层最小值；

2.如权利要求1所述导线覆冰有无决策树模型，其特征在于，所述决策树终止条件，满足下列任一终止条件即终止，完成决策树模型的生成：

(2)没有变量属性可再用于对数据进行分割；

3.基于如权利要求1-2任一权利要求所述导线覆冰有无决策树模型对导线覆冰有无判定的方法，其步骤为，

(1)确定需进行判定的区域；

4.基于如权利要求1-2任一权利要求所述导线覆冰有无决策树模型预测导线覆冰持续时间的方法，其步骤如下：