CN112597629A - 一种导线覆冰有无决策树模型及对导线覆冰有无判定和预测导线覆冰持续时间的方法 - Google Patents

一种导线覆冰有无决策树模型及对导线覆冰有无判定和预测导线覆冰持续时间的方法 Download PDF

Info

Publication number
CN112597629A
CN112597629A CN202011392538.3A CN202011392538A CN112597629A CN 112597629 A CN112597629 A CN 112597629A CN 202011392538 A CN202011392538 A CN 202011392538A CN 112597629 A CN112597629 A CN 112597629A
Authority
CN
China
Prior art keywords
variable
weighted average
kini
group
total
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011392538.3A
Other languages
English (en)
Other versions
CN112597629B (zh
Inventor
王熹
肖锐
曹小群
乐海洪
张庭
程铁洪
孙学勇
黄磊
高革命
刘志腾
赵超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PowerChina Jiangxi Electric Power Engineering Co Ltd
Original Assignee
PowerChina Jiangxi Electric Power Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PowerChina Jiangxi Electric Power Engineering Co Ltd filed Critical PowerChina Jiangxi Electric Power Engineering Co Ltd
Priority to CN202011392538.3A priority Critical patent/CN112597629B/zh
Publication of CN112597629A publication Critical patent/CN112597629A/zh
Application granted granted Critical
Publication of CN112597629B publication Critical patent/CN112597629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2113/00Details relating to the application field
    • G06F2113/16Cables, cable trees or wire harnesses

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种导线覆冰有无决策树模型,包括以下步骤,(1)数据预处理;(2)获得导线覆冰有无总样本的基本参数;(3)获取每个变量的基尼系数;(4)选取加权平均基尼系数最小的变量作为最优分割属性,开始树的第一层分叉;(5)第一层分叉;(6)重复步骤(3)‑(5),继续进行深一层的分叉,直至达到决策树终止条件,就完成了决策树模型的生成。本发明还公开了一种基于决策树及回归模型的导线覆冰预警方法对导线覆冰有无判定的方法和预测导线覆冰持续时间的方法。本发明通过基尼系数来衡量每个变量的信息量,选取基尼系数最小的变量作为最优分割属性,以该变量作为决策树的分支节点,继续进行上述分割,直至达到决策树终止分割条件,则完成模型建立过程。

Description

一种导线覆冰有无决策树模型及对导线覆冰有无判定和预测 导线覆冰持续时间的方法
技术领域
本发明属于电力工程信息处理技术领域,具体涉及一种导线覆冰有无决策树模型。本发明还涉及一种基于导线覆冰有无决策树模型对导线覆冰有无判定和预测导线覆冰持续时间的方法。
背景技术
导线覆冰是影响输电线路安全稳定运行的主要自然灾害之一,可能导致输电线路发生舞动、覆冰闪络、脱冰跳跃、断线甚至倒塔等多种事故,对电网安全构成严重的危害。因此有必要对输电线路覆冰情况进行提前预警,进而有针对性的提出相应的覆冰应对方案,但是由于输电线路覆冰的产生过程具有动态性、不确定性、非线性、突变及间歇等特性,使得输电线路覆冰预测模型复杂且准确度不高。输电线路的覆冰受诸多因素的影响,比如:气温、湿度、风速及风向、冷暖空气对流、环流、海拔高程、经纬度、电场及负荷电流等气象因素、地形因素以及导地线自身因素。如何进行导线覆冰的准确预警,从而采取防冰措施,是提高抗冰能力的关键。同时目前针对导线覆冰的预测只停留在覆冰厚度层面,而对于导线覆冰持续时间并没有相关研究,导线覆冰持续时间是影响覆冰线路运行的关键因素之一,较短时间的覆冰往往不会影响线路的正常运行,而较长时间的覆冰则会对线路造成重大损失。因此,有必要提出一种方法,综合考虑导线覆冰及其持续时间,来为线路覆冰预警提供更为精确的参考。
发明内容
本发明要解决的技术问题是提供一种基于决策树及回归模型的导线覆冰预警方法,进而大幅提高区域的抗冰能力。本发明要解决的另一个技术问题是提供一种基于决策树及回归模型的预测导线覆冰持续时间的方法。
为了实现上述目的,本发明的技术方案如下:
一种导线覆冰有无决策树模型,包括以下步骤,
(1)数据预处理:获取区域内气象站及覆冰观测站记载的导线覆冰期间相应每日的气象参数以及相应的导线覆冰测量结果设为总样本Y,包括离散变量Zi(i=1,2,3,4,5,6)和连续变量 Xj(j=1,2,3,4,5,6,7),其中,离散变量Zi包括霜、雾、露、雨、雪、冰粒六种属性,所述变量依次定义为Z1(1、0),Z2(1、0),Z3(1、0),Z4(1、0),Z5(1、0),Z6(1、0),变量中(1、0)表示是、否出现,出现用1表示,没出现用0表示;连续变量Xj包括观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速七种属性,所述变量依次定义为X1、X2、X3、X4、X5、X6、X7
确定易覆冰期间的总样本Y的组数和每个属性对应的基尼系数最小阈值;
(2)获得导线覆冰有无总样本的基本参数:其中,包括总样本Y的组数N,出现导线覆冰的组数N,没有导线覆冰的组数N
(3)获取每个变量的基尼系数:
(3.1)对于离散变量,获得离散变量Zi的基尼系数,在总样本Y中,样本组总数为N,即
Figure BDA0002811374460000021
对于离散变量Zi的样本组Ls={Zs(1)(1、0),Zs(2)(1、0),...Zs(i)(1、0)...Zs(6)(1、0)}, Zs(i)(1、0)为总样本Y中的第s组样本组的离散变量Zi的样本值,0≤s≤N,直接按照样本的属性值进行分类,具体为样本组中出现离散变量Zi的用1表示,没出现离散变量Zi的用0表示;
在总样本Y中,出现离散变量Zi(1)共有ni总组,其中有导线覆冰的组数为ni组,没有出现导线覆冰的的组数为ni总-ni组,因此出现离散变量Zi的基尼系数为:
Figure BDA0002811374460000022
在总样本Y中,没有出现离散变量Zi(0)的共有N-ni总组,其中出现导线覆冰的组数为n′i组,没有出现导线覆冰的组数为N-ni总-n′i组,因此没有出现离散变量Zi(0)的基尼系数为:
Figure BDA0002811374460000023
综合以上式子,离散变量Zi的加权平均基尼系数为:
Figure BDA0002811374460000024
(3.2)按步骤(3.1)所述方法,依次计算离散变量Zi的样本组 Ls={Zs(1)(1、0),Zs(2)(1、0),...Zs(i)(1、0)...Zs(6)(1、0)}中,Ls为总样本Y中的第s组样本组,0≤s≤N,离散变量Zi属性分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即 Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、 Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
对于离散变量Z1霜,
Figure BDA0002811374460000031
对于离散变量Z2雾,
Figure BDA0002811374460000032
对于离散变量Z3露,
Figure BDA0002811374460000033
对于离散变量Z4雨,
Figure BDA0002811374460000034
对于离散变量Z5雪,
Figure BDA0002811374460000035
对于离散变量Z6冰粒,
Figure BDA0002811374460000036
(3.3)对于连续变量Xj,获得连续变量Xj的基尼系数,在总样本Y中,总样本Y的组数为N,即
Figure BDA0002811374460000037
对于连续变量Xj的样本组Ls={Xs(1),Xs(2),...Xs(j)...Xs(7)},Ls为总样本Y中的第s组样本组,0≤s≤N,直接按照样本的属性值进行分类,将总样本Y的总数 N个连续变量Xj的样本值从小到大进行排列x1(j)、x2(j)...xs(j)...xN总(j),xs(j)为总样本Y中的第s组样本组的连续变量Xj的样本值,0≤s≤N
若有q个数据相同,则有N-q+1个不同的样本值,将连续变量Xj的N-q+1个不同的样本值x'p(j)从小到大进行排列为x'1(j)、x'2(j)...x'p(j)...x'N总-q+1(j),x'p(j)为第p个不同的样本值, 0≤p≤N-q+1,将数据分成N-q个区间,取相邻两样本值的平均数做候选分界点,一个区间对应一个候选分界点,共有N-q个候选分界点
Figure BDA0002811374460000038
Figure BDA0002811374460000039
(3.4)对每个候选分界点
Figure BDA00028113744600000310
分别计算基尼系数;
(3.4.1)在N-q+1个不同的样本值
Figure BDA00028113744600000311
中,x'p(j)为第p个不同的样本值,0≤p≤N-q+1,其中,在总样本Y,小于等于第p个候选分界点Mp的数据有a组,出现导线覆冰的有a1组,没出现导线覆冰的有a-a1组;
则小于等于第p个候选分界点Mp的连续变量Xj的基尼系数为:
Figure BDA0002811374460000041
(3.4.2)在N-q+1个不同的样本值
Figure BDA0002811374460000042
中,x'p(j)为第p个不同的样本值,0≤p≤N-q+1,其中,在总样本Y中,大于第p个候选分界点Mp的数据有N-a组,出现导线覆冰的有b组,则不存在导线覆冰的有N-a-b组数据;
则大于第p个候选分界点Mp的连续变量Xj的基尼系数为:
Figure BDA0002811374460000043
(3.4.3)则第p个候选分界点Mp的连续变量Xj的加权平均基尼系数为:
Figure BDA0002811374460000044
(3.4.4)按步骤(3.4.1)-(3.4.3)计算N-q个候选分界点
Figure BDA0002811374460000045
的加权平均基尼系数,获得N-q个加权平均基尼系数,之后比较每个候选分界点的加权平均基尼系数,从N-q个加权平均基尼系数中选取加权平均基尼系数最小的候选分界点作为该连续变量属性的最终候选分界点;
(3.4.5)以此类推,得出所有连续变量属性的最终候选分界点和对应的加权平均基尼系数;
(4)将步骤(3.2)获得的六个离散变量Zi的加权平均基尼系数和步骤(3.4.5)获得的七个连续变量Xj的最终候选分界点对应的加权平均基尼系数进行比较,选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为最优分割属性R0,获得初始加权平均基尼系数Gini(R0)min(0);R0为初始最优分割属性,为离散变量Zi或连续变量Xj中的一种属性,min(0)为初始最小值,开始树的第一层分叉;
(5)第一层分叉:在最优分割属性中,分别计算每个分叉属性中对应的总样本Y中所有变量的基尼系数,
(5.1)若初始最优分割属性R0为离散变量Zi中的一种属性,将总样本Y根据Zi(0,1)的属性进行分组,
(5.1.1)在总样本Y中,出现离散变量Zi(1)的样本组Y1有di总组,其中,出现覆冰的有di组,未出现覆冰的有di总-di组;
(5.1.1.1)按步骤(3.1)-(3.2)计算样本组Y1中,离散变量Zi分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、 Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
(5.1.1.2)按步骤(3.3)-(3.4)计算样本组Y1中,连续变量Xj各属性的最终候选分界点和对应的加权平均基尼系数;
(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为出现离散变量Zi(1)属性下的第一层最优分割属性
Figure BDA0002811374460000051
获得出现离散变量Zi(1)属性下的第一层最小加权平均基尼系数
Figure BDA0002811374460000052
开始树的第二层分叉;
其中,
Figure BDA0002811374460000053
的上标1表示出现离散变量Zi(1),(i=1,2,3,4,5,6)属性,下标1表示第一层最优分割,min(1)为第一层最小值;
(5.1.2)未出现离散变量Zi(0)的样本组Y-Y1有N-di总组,其中,出现覆冰的有d'i组,没有出现覆冰的有N-di总-d'i组,
按步骤(5.1.1.1)-(5.1.1.3),获得未出现离散变量Zi(0)属性下的最小加权平均基尼系数
Figure BDA0002811374460000054
Figure BDA0002811374460000055
为未出现离散变量Zi(0)属性下的第一层最优分割属性,开始树的第二层分叉;
其中,
Figure BDA0002811374460000056
的上标0表示未出现离散变量Zi(0)属性,下标1表示第一层最优分割,min(1)为第一层最小值;
(5.2)若初始最优分割属性R0为连续变量Xj中的一种属性,初始加权平均基尼系数Gini(R0)min(0)对应的初始分界点为Mmin(0)
将总样本Y根据小于等于或大于初始分界点Mmin(0)进行分组;
(5.2.1)在总样本Y中,连续变量Xj小于等于Mmin(0)的样本组Y'1数据有cj总组,出现导线覆冰的有cj组,没出现导线覆冰的有cj总-cj组;
(5.2.1.1)按步骤(3.1)-(3.2)计算样本组Y'1中,离散变量Zi霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
(5.2.1.2)按步骤(3.3)-(3.4)计算样本组Y'1中,连续变量Xj各属性的最终候选分界点和对应的加权平均基尼系数;
(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为连续变量Xj小于等于初始分界点Mmin(0)属性下的第一层最优分割属性
Figure BDA0002811374460000061
获得连续变量Xj小于等于初始分界点Mmin(0)属性下的第一层最小加权平均基尼系数
Figure BDA0002811374460000062
开始树的第二层分叉;
其中,
Figure BDA0002811374460000063
的上标表示小于等于初始分界点Mmin(0),下标1表示第一层最优分割,min(1) 为第一层最小值;
(5.2.2)在总样本Y中,连续变量Xj大于Mmin(0)的样本组Y-Y'1数据有N-cj总组,出现导线覆冰的有c'j组,不存在导线覆冰的有N-c'j总-c'j组数据;
按步骤(5.2.1.1)-(5.2.1.3),获得连续变量Xj大于初始分界点Mmin(0)属性下的第一层最小加权平均基尼系数
Figure BDA0002811374460000064
开始树的第二层分叉;
其中,
Figure BDA0002811374460000065
为连续变量Xj大于初始分界点Mmin(0)属性下的第一层最优分割属性,上标 >Mmin(0)表示大于初始分界点Mmin(0),下标1表示第一层最优分割,min(1)为第一层最小值;
(6)重复步骤(3)-(5),继续进行深一层的分叉,直至达到决策树终止条件,就完成了决策树模型的生成。
为了获得更好的技术效果,所述决策树终止条件,满足下列任一终止条件即终止,完成决策树模型的生成:
(1)当所有的节点都是纯的,即参与分叉的样品组的变量属性中不会同时出现有导线覆冰和无导线覆冰;
(2)没有变量属性可再用于对数据进行分割;
(3)参与分叉的样品组的个数或者变量属性的加权平均基尼系数小于对应变量属性的基尼系数最小阈值。
本发明还公开了一种基于决策树及回归模型的导线覆冰预警方法对导线覆冰有无判定的方法,其步骤为,
(1)确定需进行判定的区域;
(2)收集区域内气象站近期预报的导线覆冰相关的霜、雾、露、雨、雪、冰粒、观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速十三种属性的气象参数组;
(3)将需要进行预测的气象参数组代入上述建立的决策树模型,按照上述建立的决策树模型每一层的最优分割节点和最优分割属性对需预测的气象参数组进行分类,进而得到覆冰有无判定结果。
本发明还公开了一种基于决策树及回归模型的导线覆冰预警方法预测导线覆冰持续时间的方法,其步骤如下:
(1)利用导线覆冰有无决策树模型的预测结果,提取判定有导线覆冰的时间序列;
(2)统计时间序列中连续两次及以上出现导线覆冰的组数,若时间序列中有间断的,则重新开始统计,记为第二次导线覆冰过程;
(3)将步骤2得出的组数乘以预报参数组的间隔时间即得到一次导线覆冰的持续时间;
若预报序列存在间断导线覆冰现象,则分别记列导线覆冰持续时间。
本发明导线覆冰有无预测的数据时间尺度要与构建模型所选取的数据时间尺度保持一致。本发明导线覆冰持续时间及持续次数预测,其预测的准确性取决于决策树模型判定导线覆冰有无的准确性,导线覆冰持续时间的精度取决于构建模型和预测所选取的数据时间尺度,如本发明以日为单位则导线覆冰持续时间的预测精度就为天。
本发明公开了一种基于决策树模型的导线覆冰预警方法,该方法通过区域气象站台或覆冰观测站收集与导线覆冰相关气象参数及对应的导线覆冰信息,利用决策树算法建立导线覆冰有无判别模型。决策树模型通过基尼系数来衡量每个变量的信息量,选取基尼系数最小的变量作为最优分割属性,以该变量作为决策树的分支节点,继续进行上述分割,直至达到决策树终止分割条件,则完成模型建立过程。利用上述方法生成的决策树模型,只需将覆冰相关的气象参数代入该模型,就能利用生成的决策树模型对该组气象参数下的导线覆冰有无进行判定。在判定结束后,可以统计预报期间在时间序列上连续存在导线覆冰的组数,即得到导线覆冰次数和每次导线覆冰持续时间。
附图说明
图1为本发明实施例导线覆冰有无判定决策树模型建立流程图;
图2为本发明实施例导线覆冰决策树模型初始层和前三层结构图;
图3为本发明实施例导线覆冰决策树模型后五层结构图;
图4为本发明实施例导线覆冰有无模型对导线覆冰有无进行判定流程图;
图5为本发明实施例模型预测结果示意图。
具体实施方式
实施例1
一种导线覆冰有无决策树模型,包括以下步骤,
(1)数据预处理:通过收集区域内所有覆冰站的气象监测数据设为总样本Y,以日值为组,对所有参数进行分类整理,其中包括定性参数和定量参数,各参数见下表,其中,定性参数为离散变量Zi,(i=1,2,3,4,5,6),包括霜、雾、露、雨、雪、冰粒六种属性,所述离散变量 Zi,(i=1,2,3,4,5,6)依次定义为Z1(1、0),Z2(1、0),Z3(1、0),Z4(1、0),Z5(1、0),Z6(1、0),变量中(1、0) 表示是否出现,出现用1表示,没出现用0表示;定量参数为连续变量Xj,(j=1,2,3,4,5,6,7),包括观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速七种属性,所述变量依次定义为X1、X2、X3、X4、X5、X6、X7
表1导线覆冰相关气象参数表
Figure BDA0002811374460000081
(2)构建导线覆冰有无决策树判定模型,见图1,选取区域内所有气象站历史的导线覆冰相关参数来进行决策树模型的构建和训练,
同时确定易覆冰期间的总样本Y的组数和每个属性对应的基尼系数最小阈值;
获得获得导线覆冰有无总样本的基本参数:其中,包括总样本Y的组数N,出现导线覆冰的组数N,没有导线覆冰的组数N
(3)、获取每个变量的基尼系数:
(3.1)对于离散变量,获得离散变量Zi,(i=1,2,3,4,5,6)的基尼系数,在总样本Y中,样本组总数为N
Figure BDA0002811374460000091
对于离散变量Zi,(i=1,2,3,4,5,6)的样本组Ls={Zs(1)(1、0),Zs(2)(1、0),...Zs(i)(1、0)...Zs(6)(1、0)},s为总样本Y中的第s组样本组,0≤s≤N, i=1、2、3、4、5、6,直接按照样本的属性进行分类,具体为样本组中出现离散变量Zi,(i=1、2、3、4、5、6) 的用1表示,没出现离散变量Zi,(i=1、2、3、4、5、6)的用0表示;
在总样本Y中,出现离散变量Zi(1),(i=1、2、3、4、5、6)共有ni总,(i=1、2、3、4、5、6)组,其中有导线覆冰的组数为ni,(i=1、2、3、4、5、6)组,没有出现导线覆冰的的组数为ni总-ni,(i=1,2,3,4,5,6)组,因此出现离散变量Zi,(i=1,2,3,4,5,6)的基尼系数为:
Figure BDA0002811374460000092
在总样本Y中,没有出现离散变量Zi(0),(i=1,2,3,4,5,6)的共有N-ni总,(i=1,2,3,4,5,6)组,其中出现导线覆冰的组数为n′i,(i=1,2,3,4,5,6)组,没有出现导线覆冰的组数为 N-ni总-n′i,(i=1,2,3,4,5,6)组,因此没有出现离散变量Zi(0),(i=1,2,3,4,5,6)的基尼系数为:
Figure BDA0002811374460000093
综合以上式子,离散变量Zi,(i=1,2,3,4,5,6)的加权平均基尼系数为:
Figure BDA0002811374460000094
(3.2)按步骤(3.1)所述方法,依次计算离散变量Zi,(i=1,2,3,4,5,6)的样本组Ls={Zs(1)(1、0),Zs(2)(1、0),...Zs(i)(1、0)...Zs(6)(1、0)}中,Zs(i)(1、0)为总样本Y中的第s组样本组离散变量Zi的样本值,0≤s≤N,i=1,2,3,4,5,6中,离散变量Zi,(i=1,2,3,4,5,6)属性分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
对于离散变量Z1霜,
Figure BDA0002811374460000095
对于离散变量Z2雾,
Figure BDA0002811374460000096
对于离散变量Z3露,
Figure BDA0002811374460000101
对于离散变量Z4雨,
Figure BDA0002811374460000102
对于离散变量Z5雪,
Figure BDA0002811374460000103
对于离散变量Z6冰粒,
Figure BDA0002811374460000104
(3.3)对于连续变量Xj,(j=1,2,3,4,5,6,7),获得连续变量Xj,(j=1,2,3,4,5,6,7)的基尼系数,在总样本Y中,总样本Y的组数为N,即
Figure BDA0002811374460000105
对于连续变量Xj,(j=1,2,3,4,5,6,7)的样本组Ls={Xs(1),Xs(2),...Xs(j)...Xs(7)},s为总样本Y中的第s组样本组, 0≤s≤N,j=1,2,3,4,5,6,7,直接按照样本的属性值进行分类,将总样本Y的总数N个连续变量Xj,(j=1,2,3,4,5,6,7)的样本值从小到大进行排列
Figure BDA0002811374460000106
xs(j)为总样本Y中的第s组样本组离散变量Zi的样本值,0≤s≤N,j=1,2,3,4,5,6,7;
若有q个数据相同,则有N-q+1个不同的样本值,将连续变量Xj,(j=1,2,3,4,5,6,7)的 N-q+1个不同的样本值x'p(j)从小到大进行排列为
Figure BDA0002811374460000107
x'p(j)为第p个不同的样本值,0≤p≤N-q+1,j=1,2,3,4,5,6,7,将数据分成N-q个区间,取相邻两样本值的平均数做候选分界点,一个区间对应一个候选分界点,共有N-q个候选分界点
Figure BDA0002811374460000108
(3.4)N-q+1个不同的样本值x'p(j)从小到大进行排列为
Figure BDA0002811374460000109
x'p(j)为第p个不同的样本值,0≤p≤N-q+1,j=1,2,3,4,5,6,7,对每个候选分界点
Figure BDA00028113744600001010
分别计算基尼系数,
Figure BDA00028113744600001011
(3.4.1)在N-q+1个不同的样本值
Figure BDA00028113744600001012
中,x'p(j)为第p个不同的样本值,0≤p≤N-q+1,(j=1,2,3,4,5,6,7),其中,在总样本Y,小于等于第p个候选分界点Mp(p=1,2,...,N-q)的数据有a组,出现导线覆冰的有a1组,没出现导线覆冰的有a-a1组;
则小于等于第p个候选分界点Mp(p=1,2,...,N-q)的连续变量Xj,(j=1,2,3,4,5,6,7)的基尼系数为:
Figure BDA0002811374460000111
(3.4.2)在N-q+1个不同的样本值
Figure BDA0002811374460000112
中,x'p(j)为第p个不同的样本值,0≤p≤N-q+1,j=1,2,3,4,5,6,7,其中,在总样本Y中,大于第p个候选分界点Mp(p=1,2,...,N-q)的数据有N-a组,出现导线覆冰的有b组,则不存在导线覆冰的有N-a-b组数据;
则大于第p个候选分界点Mp(p=1,2,...,N-q)的连续变量Xj,(j=1,2,3,4,5,6,7)的基尼系数为:
Figure BDA0002811374460000113
(3.4.3)则第p个候选分界点Mp(p=1,2,...,N-q)的连续变量Xj,(j=1,2,3,4,5,6,7)的加权平均基尼系数为:
Figure BDA0002811374460000114
(3.4.4)按步骤(3.4.1)-(3.4.3)计算N-q个候选分界点
Figure BDA0002811374460000115
的加权平均基尼系数,获得N-q个加权平均基尼系数,之后比较每个候选分界点的加权平均基尼系数,从N-q个加权平均基尼系数中选取加权平均基尼系数最小的候选分界点作为该连续变量属性的最终候选分界点;
(3.4.5)以此类推,得出所有连续变量属性的最终候选分界点和对应的加权平均基尼系数;
(4)将步骤(3.2)获得的六个离散变量Zi,(i=1,2,3,4,5,6)的加权平均基尼系数和步骤(3.4.5) 获得的七个连续变量Xj,(j=1,2,3,4,5,6,7)的最终候选分界点对应的加权平均基尼系数进行比较,选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为最优分割属性R0,获得初始加权平均基尼系数Gini(R0)min(0);R0为初始最优分割属性,为离散变量Zi,(i=1,2,3,4,5,6)或连续变量Xj,(j=1,2,3,4,5,6,7)中的一种属性,min(0)为初始最小值,开始树的第一层分叉;
(5)第一层分叉:在最优分割属性中,分别计算每个分叉属性中对应的总样本Y中所有变量的基尼系数,
(5.1)若初始最优分割属性R0为离散变量Zi,(i=1,2,3,4,5,6)中的一种属性,将总样本Y根据Zi(0,1),(i=1,2,3,4,5,6)的属性进行分组,
(5.1.1)在总样本Y中,出现离散变量Zi(1),(i=1,2,3,4,5,6)的样本组Y1有 di总,(i=1,2,3,4,5,6)组,其中,出现覆冰的有di,(i=1,2,3,4,5,6)有组,未出现覆冰的有di总-di,(i=1,2,3,4,5,6)组;
(5.1.1.1)按步骤(3.1)-(3.2)计算样本组Y1中,离散变量Zi,(i=1,2,3,4,5,6)分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
(5.1.1.2)按步骤(3.3)-(3.4)计算样本组Y1中,连续变量Xj,(j=1,2,3,4,5,6,7)各属性的最终候选分界点和对应的加权平均基尼系数;
(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为出现离散变量Zi(1),(i=1,2,3,4,5,6)属性下的第一层最优分割属性
Figure BDA0002811374460000121
获得出现离散变量Zi(1),(i=1,2,3,4,5,6)属性下的第一层最小加权平均基尼系数
Figure BDA0002811374460000122
开始树的第二层分叉;
其中,
Figure BDA0002811374460000123
的上标1表示出现离散变量Zi(1),(i=1,2,3,4,5,6)属性,下标1表示第一层最优分割,min(1)为第一层最小值;
(5.1.2)未出现离散变量Zi(0),(i=1,2,3,4,5,6)的样本组Y-Y1有N-di总,(i=1,2,3,4,5,6)组,其中,出现覆冰的有d'i,(i=1,2,3,4,5,6)组,没有出现覆冰的有N-di总-d'i,(i=1,2,3,4,5,6)组,
按步骤(5.1.1.1)-(5.1.1.3),获得未出现离散变量Zi(0),(i=1,2,3,4,5,6)属性下的最小加权平均基尼系数
Figure BDA0002811374460000131
Figure BDA0002811374460000132
为未出现离散变量Zi(0),(i=1,2,3,4,5,6)属性下的第一层最优分割属性,开始树的第二层分叉;
其中,
Figure BDA0002811374460000133
的上标0表示未出现离散变量Zi(0),(i=1,2,3,4,5,6)属性,下标1表示第一层最优分割,min(1)为第一层最小值;
(5.2)若初始最优分割属性R0为连续变量Xj,(j=1,2,3,4,5,6,7)中的一种属性,初始加权平均基尼系数Gini(R0)min(0)对应的初始分界点为Mmin(0)
将总样本Y根据小于等于或大于初始分界点Mmin(0)进行分组;
(5.2.1)在总样本Y中,连续变量Xj,(j=1,2,3,4,5,6,7)小于等于Mmin(0)的样本组Y'1数据有 cj总,(j=1,2,3,4,5,6,7)组,出现导线覆冰的有cj,(j=1,2,3,4,5,6,7)组,没出现导线覆冰的有 cj总-cj,(j=1,2,3,4,5,6,7)组;
(5.2.1.1)按步骤(3.1)-(3.2)计算样本组Y'1中,离散变量Zi,(i=1,2,3,4,5,6)分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
(5.2.1.2)按步骤(3.3)-(3.4)计算样本组Y'1中,连续变量Xj,(j=1,2,3,4,5,6,7)各属性的最终候选分界点和对应的加权平均基尼系数;
(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为连续变量Xj,(j=1,2,3,4,5,6,7)小于等于初始分界点Mmin(0)属性下的第一层最优分割属性
Figure BDA0002811374460000134
获得连续变量Xj,(j=1,2,3,4,5,6,7)小于等于初始分界点 Mmin(0)属性下的第一层最小加权平均基尼系数
Figure BDA0002811374460000135
开始树的第二层分叉;
其中,
Figure BDA0002811374460000136
的上标表示小于等于初始分界点Mmin(0),下标1表示第一层最优分割,min(1) 为第一层最小值;
(5.2.2)在总样本Y中,连续变量Xj,(j=1,2,3,4,5,6,7)大于Mmin(0)的样本组Y-Y'1数据有N-cj总,(j=1,2,3,4,5,6,7)组,出现导线覆冰的有c'j,(j=1,2,3,4,5,6,7)组,不存在导线覆冰的有N-c'j总-c'j,(j=1,2,3,4,5,6,7)组数据;
按步骤(5.2.1.1)-(5.2.1.3),获得连续变量Xj,(j=1,2,3,4,5,6,7)大于初始分界点Mmin(0)属性下的第一层最小加权平均基尼系数
Figure BDA0002811374460000141
开始树的第二层分叉;
其中,
Figure BDA0002811374460000142
为连续变量Xj,(j=1,2,3,4,5,6,7)大于初始分界点Mmin(0)属性下的第一层最优分割属性,上标>Mmin(0)表示大于初始分界点Mmin(0),下标1表示第一层最优分割,min(1)为第一层最小值;
(6)重复步骤(3)-(5),继续进行深一层的分叉,直至达到决策树终止条件,就完成了决策树模型的生成;
(7)决策树终止条件,满足下列任一终止条件即完成决策树模型的生成:
(7.1)当所有的节点都是纯的,即参与分叉的样品组的变量属性中不会同时出现有导线覆冰和无导线覆冰;
(7.2)没有属性可再用于对数据进行分割;
(7.3)参与分叉的样品组的个数或者变量属性的加权平均基尼系数小于对应变量属性的基尼系数最小阈值;
实施例2
一种基于决策树及回归模型的导线覆冰预警方法对导线覆冰有无判定的方法,其步骤为,
(1)确定需进行判定的区域;
(2)收集区域内气象站近期预报的导线覆冰相关的霜、雾、露、雨、雪、冰粒、观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速十三种属性的气象参数组;
(3)将需要进行预测的气象参数组代入上述建立的决策树模型,按照上述建立的决策树模型每一层的最优分割节点和最优分割属性对需预测的气象参数组进行分类,进而得到覆冰有无判定结果。
实施例3
一种基于决策树及回归模型的导线覆冰预警方法预测导线覆冰持续时间的方法,其步骤如下:
(1)利用导线覆冰有无决策树模型的预测结果,提取判定有导线覆冰的时间序列;
(2)计时间序列中连续两次及以上出现导线覆冰的组数,若时间序列中有间断的,则重新开始统计,记为第二次导线覆冰过程;
(3)将步骤2得出的组数乘以预报参数组的间隔时间即得到一次导线覆冰的持续时间;
若预报序列存在间断导线覆冰现象,则分别记列导线覆冰持续时间。
实施例4
本发明基于决策树分类理论,能综合考虑导线覆冰影响因素中的离散变量和连续变量,进而对区域内的冰区进行较为准确的划分,本发明以江西省历史导线覆冰数据为例,对本发明进行说明,流程见附图1。
一种导线覆冰有无决策树模型,包括以下步骤,
(1)数据预处理:获取江西省区域内气象站及覆冰观测站记载的导线覆冰期间相应每日的气象参数以及相应的导线覆冰测量结果,气象参数见实施例1中的表1所示,
变量中(1、0)表示是否出现,出现用1表示,没出现用0表示;
规定决策树算法的边界条件:通过试错,确定子节点最小个案数为5,父节点最小个案数为10;基尼系数最小阈值为0.0001,当决策树模型达到上述边界条件,决策树停止分类;
决策树中排列在上一层的节点为下一层的父节点,下一层为上一层的子节点;子父节点的最小个案树需根据模型样本个数不断试错确定,设置太大,容易出现层数太少,导致决策树失真,层数太多,会导致决策树过于茂盛,从而出现过度拟合的现象;
(2)构建导线覆冰有无决策树判定模型,见图1,以江西省区域内2008年导线覆冰期间的气象数据为例,总样本Y组数N=584组,其中出现导线覆冰的有N=55组,没有导线覆冰的有N=529组;
(3)获取变量的基尼系数:
(3.1)对于离散变量,获得离散变量Zi,(i=1,2,3,4,5,6)的基尼系数,以雾为例,雾为离散变量Z2,在总样本Y中,离散变量Z2的总样本组数为N=584组,出现雾的天气现象共有 n2总=361次,其中出现导线覆冰的次数为n2=40组,没有出现导线覆冰的次为n2总-n2=321组,因此出现雾的基尼系数为:
Figure BDA0002811374460000151
总样本Y中,没有出现离散变量Z2的共有N-n2总=223组,即无雾天气出现223次,其中出现导线覆冰的次数为n′2=15组,没出现导线覆冰的次数为N-n2总-n′2=208组,因此无雾的基尼系数为:
Figure BDA0002811374460000161
综合以上式子,因此离散变量Z2的加权平均基尼系数为:
Figure BDA0002811374460000162
(3.2)按步骤(3.1)相同方法依次计算霜(1、0)、露(1、0)、雨(1、0)、雪(1、0)、冰粒(1、0)等离散变量的加权平均基尼系数,各变量的加权平均基尼系数如表2所示:
表2离散变量的加权平均基尼系数计算结果
变量名称 冰粒
加权平均基尼系数 0.1680 0.1697 0.1666 0.1657 0.1553 0.1615
(3.3)对于连续变量Xj,(j=1,2,3,4,5,6,7),获得连续变量Xj,(j=1,2,3,4,5,6,7)的基尼系数,本实施例以样本属性X4为平均相对湿度为例,本算例中X4平均相对湿度的样本值按照从小到大排序后的值如表3所示:
表3
16 22 23 29 30 32 33 39
41 42 43 46 48 49 50 51
53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68
69 70 71 72 73 74 75 76(1)
77 78(1) 79(1) 80 81 82 83(5) 84(1)
85 86(1) 87 88(7) 89(2) 90(1) 91(1) 92(2)
93(4) 94(3) 95(1) 96(4) 97(2) 98(2) 99(16) 100
注:括号里的数表示在该湿度下出现导线覆冰的组数
在总样本Y中,样本组总数为N=584组,按实施例1步骤(3.3)确定有64个不同的平均相对湿度值,取相邻两个湿度值的平均值作为候选分界点,例如16和22之间,确定候选分界点为19,因此平均相对湿度共有63个候选分界点,但由于平均相对湿度值在16-75之间均为无导线覆冰组,因此无需选取这些节点进行分割,仅需要对开始出现导线覆冰的节点进行基尼系数的计算,即对平均相对湿度值在76-100之间的样本值进行筛选;因此对于属性为平均相对湿度值的样本,共有25个不同的平均相对湿度样本值,将连续变量X4的25个不同的样本值从小到大进行排列为x'1(j)、x'2(j)...x'p(j)...x'N总-q+1(j),x'p(j)为第p个不同的样本值,0≤p≤25,将数据分成24个区间,取相邻两样本值的平均数做候选分界点,一个区间对应一个候选分界点,共有 24个候选分界点M={M1、M2...Ml...M24},
Figure BDA0002811374460000171
(3.4)在平均相对湿度(X4)中,有意义的样本值为平均相对湿度值在76-100的共25个,具有24个候选分界点和24个区间,之后对每个候选分界点分别计算基尼系数;
(3.4.1)现取平均相对湿度值为83的样本值进行举例,小于候选分界点83.5的样本数据有a=282组,其中出现导线覆冰的有a1=8组,没有出现导线覆冰的有a-a1=274组;
则小于等于候选分界点83.5的连续变量X4的基尼系数为:
Figure BDA0002811374460000172
(3.4.2)大于候选分界点83.5的样本数据有N-a=302组,其中,出现导线覆冰的有 b=47组,则不存在导线覆冰的有N-a-b=255组数据;
则大于候选分界点83.5的连续变量X4的基尼系数为:
Figure BDA0002811374460000173
(3.4.3)则候选分界点83.5的连续变量X4的加权平均基尼系数为:
Figure BDA0002811374460000174
(3.4.4)按步骤(3.4.1)-(3.4.3)计算每个候选分界点的加权平均基尼系数,比较每个候选分界点的加权平均基尼系数,选取加权平均基尼系数最小的候选分界点作为最终候选分界点;
平均相对湿度属性X4的各候选分界点的加权平均基尼系数计算结果如表4所示:
表4平均相对湿度属性X4的各候选分界点的加权平均基尼系数计算结果表
Figure BDA0002811374460000175
Figure BDA0002811374460000181
通过上表可知,平均相对湿度属性X4的最优分割节点为X4=87.5,对应的加权平均基尼系数为0.1596;
(3.4.5)以此类推,得出所有连续变量属性的最终候选分界点和对应的加权平均基尼系数;
按相同方法依次计算观测场海拔、平均气温、最高气温、最低气温、平均风速、最大风速等其他六个连续变量的加权平均基尼系数,各变量的加权平均基尼系数如表5所示:
表5连续变量基尼系数计算结果
Figure BDA0002811374460000182
(4)将步骤(3.2)获得的六个离散变量Zi,(i=1,2,3,4,5,6)的加权平均基尼系数和步骤(3.4.5) 获得的七个连续变量Xj,(j=1,2,3,4,5,6,7)的最终候选分界点对应的加权平均基尼系数进行比较,见表2和表5,对比每个变量最优分割点对应的加权平均基尼系数,选取加权平均基尼系数最小的变量作为第一层树的最优分割属性;
经计算可知,平均气温属性X2的加权平均基尼系数最小,离散变量X2的加权平均基尼系数为0.1266,分界点为0.35℃,因此将平均气温属性X2作为最优分割属性R0,初始加权平均基尼系数Gini(R0)min(0)=0.1266,开始树的第一层分叉,见附图2;
(5)第一层分叉:在最优分割属性中,分别计算每个分叉属性中对应的总样本Y中所有变量的基尼系数,
由于最优分割属性R0为平均气温属性X2,为连续变量Xj,(j=1,2,3,4,5,6,7)中的一种属性,因此按实施例1中步骤(5.2)进行第一层分叉;
初始加权平均基尼系数Gini(R0)min(0)=0.1266,对应的初始分界点为Mmin(0)=0.35℃,
将总样本Y根据小于等于或大于初始分界点Mmin(0)进行分组;
(5.1)在总样本组Y中,平均气温属性X2≤0.35℃的样本组Y'1数据有c2总=139组,出现导线覆冰的有c2=45组,没出现导线覆冰的有c2总-c2=94组;
(5.1.1)按步骤(3.3)-(3.4)计算样本组Y'1中,离散变量Zi,(i=1,2,3,4,5,6)分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
(5.1.2)按步骤(3.3)-(3.4)计算样本组Y'1中,连续变量Xj,(j=1,2,3,4,5,6,7)各属性的最终候选分界点和对应的加权平均基尼系数;
计算得到各离散变量和连续变量的加权平均基尼系数如表6和表7所示,
表6离散变量基尼系数
变量名称 冰粒
基尼系数 0.1682 0.1829 * 0.1914 0.1816 0.1082
表7连续变量基尼系数
Figure BDA0002811374460000191
*表示纯节点,无法继续分割。
(5.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为连续变量Xj小于等于初始分界点Mmin(0)属性下的第一层最优分割属性
Figure BDA0002811374460000192
获得连续变量Xj小于等于初始分界点Mmin(0)属性下的第一层最小加权平均基尼系数
Figure BDA0002811374460000193
开始树的第二层分叉;
本实施例中,
Figure BDA0002811374460000201
对应的第一层分界点为Mmin(1)=43.5米,第一层最优分割属性
Figure BDA0002811374460000202
为观测场海拔,
(5.2)在总样本组Y中,连续变量X2平均气温>0.35℃的样本组Y-Y'1数据有N-cj总=445 组;出现导线覆冰的有c'2=5组,不存在导线覆冰的有N-c'2总-c'2=440组数据,
按步骤(5.1.1)-(5.1.2),计算得到各离散变量和连续变量的加权平均基尼系数如表8和表9所示:
表8离散变量基尼系数
变量名称 冰粒
基尼系数 0.0282 0.0281 0.0281 0.0280 0.0276 0.0284
表9连续变量基尼系数
Figure BDA0002811374460000203
按步骤(5.1.3)获得连续变量X2平均气温大于初始分界点Mmin(0)=0.35℃属性下的第一层最小加权平均基尼系数
Figure BDA0002811374460000204
开始树的第二层分叉;
其中,
Figure BDA0002811374460000205
为连续变量X2大于初始分界点Mmin(0)=0.35℃属性下的第一层最优分割属性,本实施例中第一层最优分割属性
Figure BDA0002811374460000206
为平均气温,第一层最小加权平均基尼系数
Figure BDA0002811374460000207
对应的第一层分界点为Mmin(1)=0.65℃;
(6)本实施例中,
“平均气温小于等于0.35℃”的最优分割属性为观测场海拔,对应的第一层分界点为 Mmin(1)=43.5米;
而“平均气温大于0.35℃”的最优分割属性为平均气温,对应的第一层分界点为Mmin(1)=0.65℃;
再分别以观测场海拔、Mmin(1)=43.5米和平均气温、Mmin(1)=0.65℃分别开始树的第二层分叉;
(7)以此类推,重复步骤(5)-(6),继续进行深一层的分叉,直至达到决策树终止条件,就完成了决策树模型的生成;
(8)决策树终止条件,满足下列任一终止条件即完成决策树模型的生成:
(8.1)当所有的节点都是纯的,即参与分叉的样品组的变量属性中不会同时出现有导线覆冰和无导线覆冰;
(8.2)没有属性可再用于对数据进行分割;
(8.3)参与分叉的样品组的个数或者变量属性的加权平均基尼系数小于对应变量属性的基尼系数最小阈值。
按照划分终止条件得到完整的导线覆冰有无决策树判定模型,得到的预测模型见图2和图 3。
实施例5导线覆冰有无模型预测
导线覆冰有无模型对导线覆冰有无进行判定,预测过程如下:
(1)确定需进行判定的区域;
(2)收集区域内气象站近期预报的导线覆冰相关气象参数;
(3)代入上述建立的决策树模型,进而得到导线覆冰有无的判定结果。
选取江西省境内某年区域某站点冬季气象数据来对模型的预测效果进行检验。共有该气象站导线覆冰期间37天的有效气象数据,见下表:
表9江西省境内某年区域某站点冬季气象数据
Figure BDA0002811374460000211
Figure BDA0002811374460000221
根据图2和图3所建立的决策树模型,对上述37组数据进行覆冰有无预测,以第一组为例,初始层分叉,第一组平均气温为1℃,大于0.35℃;第一层分叉,第一组平均气温大于0.65℃;第二层分叉,第一组平均气温小于1.15℃;第三层分叉,第一组平均风速为1.7m/s,小于2.35m/s,因此该组预测没有覆冰,而根据观测数据,该组实际也是没有出现覆冰。
同理,可得其他36组数据的预测结果。
预测过程见图4,预测值与实际值对比见图5。通过对比可知,实际值预测值的拟合度为 91.8%,模型能满足预测精度要求。
实施例6导线覆冰持续时间预测
导线覆冰持续时间预测的步骤如下:
(1)利用上述导线覆冰有无决策树模型的预测结果,提取判定有导线覆冰的时间序列;
(2)统计时间序列中连续2天以上出现导线覆冰的组数,时间序列中有间断的,则重新开始统计,记为第二次导线覆冰过程;
(3)将步骤2得出的组数乘于预报参数组的间隔时间即得到一次导线覆冰的持续时间;预报序列存在间断导线覆冰现象,则分别记列导线覆冰持续时间。
选取上述序列的一次导线覆冰过程,通过预测值可知该站在该年度一共经历三次导线覆冰过程,且每次导线覆冰时间持续增加,通过附图5可知,实际过程该站在该年度一共经历三次导线覆冰过程,且每次导线覆冰时间持续增加,与预测结果向吻合。在导线覆冰持续时间上,实际结果显示三次导线覆冰过程持续时间分别1、2、6天,预测结果显示三次导线覆冰过程持续时间分别为1、3、6天,预测结果较为可靠。

Claims (4)

1.一种导线覆冰有无决策树模型,包括以下步骤,
(1)数据预处理:获取区域内气象站及覆冰观测站记载的导线覆冰期间相应每日的气象参数以及相应的导线覆冰测量结果设为总样本Y,包括离散变量Zi(i=1,2,3,4,5,6)和连续变量Xj(j=1,2,3,4,5,6,7),其中,离散变量Zi包括霜、雾、露、雨、雪、冰粒六种属性,所述变量依次定义为Z1(1、0),Z2(1、0),Z3(1、0),Z4(1、0),Z5(1、0),Z6(1、0),变量中(1、0)表示是、否出现,出现用1表示,没出现用0表示;连续变量Xj包括观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速七种属性,所述变量依次定义为X1、X2、X3、X4、X5、X6、X7
确定易覆冰期间的总样本Y的组数和每个属性对应的基尼系数最小阈值;
(2)获得导线覆冰有无总样本的基本参数:其中,包括总样本Y的组数N,出现导线覆冰的组数N,没有导线覆冰的组数N
(3)获取每个变量的基尼系数:
(3.1)对于离散变量,获得离散变量Zi的基尼系数,在总样本Y中,样本组总数为N,即
Figure FDA0002811374450000011
对于离散变量Zi的样本组Ls={Zs(1)(1、0),Zs(2)(1、0),...Zs(i)(1、0)...Zs(6)(1、0)},Ls为总样本Y中的第s组样本组,0≤s≤N,直接按照样本的属性值进行分类,具体为样本组中出现离散变量Zi的用1表示,没出现离散变量Zi的用0表示;
在总样本Y中,出现离散变量Zi(1)共有ni总组,其中有导线覆冰的组数为ni组,没有出现导线覆冰的的组数为ni总-ni组,因此出现离散变量Zi的基尼系数为:
Figure FDA0002811374450000012
在总样本Y中,没有出现离散变量Zi(0)的共有N-ni总组,其中出现导线覆冰的组数为n′i组,没有出现导线覆冰的组数为N-ni总-n′i组,因此没有出现离散变量Zi(0)的基尼系数为:
Figure FDA0002811374450000013
综合以上式子,离散变量Zi的加权平均基尼系数为:
Figure FDA0002811374450000021
(3.2)按步骤(3.1)所述方法,依次计算离散变量Zi的样本组Ls={Zs(1)(1、0),Zs(2)(1、0),...Zs(i)(1、0)...Zs(6)(1、0)}中,Ls为总样本Y中的第s组样本组,0≤s≤N,离散变量Zi属性分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
对于离散变量Z1霜,
Figure FDA0002811374450000022
对于离散变量Z2雾,
Figure FDA0002811374450000023
对于离散变量Z3露,
Figure FDA0002811374450000024
对于离散变量Z4雨,
Figure FDA0002811374450000025
对于离散变量Z5雪,
Figure FDA0002811374450000026
对于离散变量Z6冰粒,
Figure FDA0002811374450000027
(3.3)对于连续变量Xj,获得连续变量Xj的基尼系数,在总样本Y中,总样本Y的组数为N,即
Figure FDA0002811374450000028
对于连续变量Xj的样本组Ls={Xs(1),Xs(2),...Xs(j)...Xs(7)},Ls为总样本Y中的第s组样本组,0≤s≤N,直接按照样本的属性值进行分类,将总样本Y的总数N个连续变量Xj的样本值从小到大进行排列
Figure FDA00028113744500000210
xs(j)为总样本Y中的第s组样本组的连续变量Xj的样本值,0≤s≤N
若有q个数据相同,则有N-q+1个不同的样本值,将连续变量Xj的N-q+1个不同的样本值x'p(j)从小到大进行排列为
Figure FDA0002811374450000029
x'p(j)为第p个不同的样本值,0≤p≤N-q+1,将数据分成N-q个区间,取相邻两样本值的平均数做候选分界点,一个区间对应一个候选分界点,共有N-q个候选分界点M={M1、M2...Ml...MN总-q},
Figure FDA0002811374450000031
(3.4)对每个候选分界点
Figure FDA0002811374450000032
分别计算基尼系数;
(3.4.1)在N-q+1个不同的样本值
Figure FDA0002811374450000033
中,x'p(j)为第p个不同的样本值,0≤p≤N-q+1,其中,在总样本Y,小于等于第p个候选分界点Mp的数据有a组,出现导线覆冰的有a1组,没出现导线覆冰的有a-a1组;
则小于等于第p个候选分界点Mp的连续变量Xj的基尼系数为:
Figure FDA0002811374450000034
(3.4.2)在N-q+1个不同的样本值
Figure FDA0002811374450000035
中,x'p(j)为第p个不同的样本值,0≤p≤N-q+1,其中,在总样本Y中,大于第p个候选分界点Mp的数据有N-a组,出现导线覆冰的有b组,则不存在导线覆冰的有N-a-b组数据;
则大于第p个候选分界点Mp的连续变量Xj的基尼系数为:
Figure FDA0002811374450000036
(3.4.3)则第p个候选分界点Mp的连续变量Xj的加权平均基尼系数为:
Figure FDA0002811374450000037
(3.4.4)按步骤(3.4.1)-(3.4.3)计算N-q个候选分界点
Figure FDA0002811374450000038
的加权平均基尼系数,获得N-q个加权平均基尼系数,之后比较每个候选分界点的加权平均基尼系数,从N-q个加权平均基尼系数中选取加权平均基尼系数最小的候选分界点作为该连续变量属性的最终候选分界点;
(3.4.5)以此类推,得出所有连续变量属性的最终候选分界点和对应的加权平均基尼系数;
(4)将步骤(3.2)获得的六个离散变量Zi的加权平均基尼系数和步骤(3.4.5)获得的七个连续变量Xj的最终候选分界点对应的加权平均基尼系数进行比较,选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为最优分割属性R0,获得初始加权平均基尼系数Gini(R0)min(0);R0为初始最优分割属性,为离散变量Zi或连续变量Xj中的一种属性,min(0)为初始最小值,开始树的第一层分叉;
(5)第一层分叉:在最优分割属性中,分别计算每个分叉属性中对应的总样本Y中所有变量的基尼系数,
(5.1)若初始最优分割属性R0为离散变量Zi中的一种属性,将总样本Y根据Zi(0,1)的属性进行分组,
(5.1.1)在总样本Y中,出现离散变量Zi(1)的样本组Y1有di总组,其中,出现覆冰的有di组,未出现覆冰的有di总-di组;
(5.1.1.1)按步骤(3.1)-(3.2)计算样本组Y1中,离散变量Zi分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
(5.1.1.2)按步骤(3.3)-(3.4)计算样本组Y1中,连续变量Xj各属性的最终候选分界点和对应的加权平均基尼系数;
(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为出现离散变量Zi(1)属性下的第一层最优分割属性
Figure FDA0002811374450000041
获得出现离散变量Zi(1)属性下的第一层最小加权平均基尼系数
Figure FDA0002811374450000042
开始树的第二层分叉;
其中,
Figure FDA0002811374450000043
的上标1表示出现离散变量Zi(1),(i=1,2,3,4,5,6)属性,下标1表示第一层最优分割,min(1)为第一层最小值;
(5.1.2)未出现离散变量Zi(0)的样本组Y-Y1有N-di总组,其中,出现覆冰的有d′i组,没有出现覆冰的有N-di总-d′i组,
按步骤(5.1.1.1)-(5.1.1.3),获得未出现离散变量Zi(0)属性下的最小加权平均基尼系数
Figure FDA0002811374450000051
Figure FDA0002811374450000052
为未出现离散变量Zi(0)属性下的第一层最优分割属性,开始树的第二层分叉;
其中,
Figure FDA0002811374450000053
的上标0表示未出现离散变量Zi(0)属性,下标1表示第一层最优分割,min(1)为第一层最小值;
(5.2)若初始最优分割属性R0为连续变量Xj中的一种属性,初始加权平均基尼系数Gini(R0)min(0)对应的初始分界点为Mmin(0)
将总样本Y根据小于等于或大于初始分界点Mmin(0)进行分组;
(5.2.1)在总样本Y中,连续变量Xj小于等于Mmin(0)的样本组Y′1数据有cj总组,出现导线覆冰的有cj组,没出现导线覆冰的有cj总-cj组;
(5.2.1.1)按步骤(3.1)-(3.2)计算样本组Y′1中,离散变量Zi霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
(5.2.1.2)按步骤(3.3)-(3.4)计算样本组Y′1中,连续变量Xj各属性的最终候选分界点和对应的加权平均基尼系数;
(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为连续变量Xj小于等于初始分界点Mmin(0)属性下的第一层最优分割属性
Figure FDA0002811374450000054
获得连续变量Xj小于等于初始分界点Mmin(0)属性下的第一层最小加权平均基尼系数
Figure FDA0002811374450000055
开始树的第二层分叉;
其中,
Figure FDA0002811374450000056
的上标表示小于等于初始分界点Mmin(0),下标1表示第一层最优分割,min(1)为第一层最小值;
(5.2.2)在总样本Y中,连续变量Xj大于Mmin(0)的样本组Y-Y′1数据有N-cj总组,出现导线覆冰的有c′j组,不存在导线覆冰的有N-c'j总-c'j组数据;
按步骤(5.2.1.1)-(5.2.1.3),获得连续变量Xj大于初始分界点Mmin(0)属性下的第一层最小加权平均基尼系数
Figure FDA0002811374450000057
开始树的第二层分叉;
其中,
Figure FDA0002811374450000061
为连续变量Xj大于初始分界点Mmin(0)属性下的第一层最优分割属性,上标>Mmin(0)表示大于初始分界点Mmin(0),下标1表示第一层最优分割,min(1)为第一层最小值;
(6)重复步骤(3)-(5),继续进行深一层的分叉,直至达到决策树终止条件,就完成了决策树模型的生成。
2.如权利要求1所述导线覆冰有无决策树模型,其特征在于,所述决策树终止条件,满足下列任一终止条件即终止,完成决策树模型的生成:
(1)当所有的节点都是纯的,即参与分叉的样品组的变量属性中不会同时出现有导线覆冰和无导线覆冰;
(2)没有变量属性可再用于对数据进行分割;
(3)参与分叉的样品组的个数或者变量属性的加权平均基尼系数小于对应变量属性的基尼系数最小阈值。
3.基于如权利要求1-2任一权利要求所述导线覆冰有无决策树模型对导线覆冰有无判定的方法,其步骤为,
(1)确定需进行判定的区域;
(2)收集区域内气象站近期预报的导线覆冰相关的霜、雾、露、雨、雪、冰粒、观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速十三种属性的气象参数组;
(3)将需要进行预测的气象参数组代入上述建立的决策树模型,按照上述建立的决策树模型每一层的最优分割节点和最优分割属性对需预测的气象参数组进行分类,进而得到覆冰有无判定结果。
4.基于如权利要求1-2任一权利要求所述导线覆冰有无决策树模型预测导线覆冰持续时间的方法,其步骤如下:
(1)利用导线覆冰有无决策树模型的预测结果,提取判定有导线覆冰的时间序列;
(2)统计时间序列中连续两次及以上出现导线覆冰的组数,若时间序列中有间断的,则重新开始统计,记为第二次导线覆冰过程;
(3)将步骤2得出的组数乘以预报参数组的间隔时间即得到一次导线覆冰的持续时间;
若预报序列存在间断导线覆冰现象,则分别记列导线覆冰持续时间。
CN202011392538.3A 2020-12-01 2020-12-01 导线覆冰有无决策树模型的建立方法及对覆冰有无判定和预测覆冰持续时间的方法 Active CN112597629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011392538.3A CN112597629B (zh) 2020-12-01 2020-12-01 导线覆冰有无决策树模型的建立方法及对覆冰有无判定和预测覆冰持续时间的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011392538.3A CN112597629B (zh) 2020-12-01 2020-12-01 导线覆冰有无决策树模型的建立方法及对覆冰有无判定和预测覆冰持续时间的方法

Publications (2)

Publication Number Publication Date
CN112597629A true CN112597629A (zh) 2021-04-02
CN112597629B CN112597629B (zh) 2022-11-01

Family

ID=75187729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011392538.3A Active CN112597629B (zh) 2020-12-01 2020-12-01 导线覆冰有无决策树模型的建立方法及对覆冰有无判定和预测覆冰持续时间的方法

Country Status (1)

Country Link
CN (1) CN112597629B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491416A (zh) * 2022-02-23 2022-05-13 北京百度网讯科技有限公司 特征信息的处理方法、装置、电子设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103616099A (zh) * 2013-11-25 2014-03-05 国家电网公司 输电线路光纤复合地线覆冰的频域分析的状态监测方法
US9171259B1 (en) * 2015-01-12 2015-10-27 Bank Of America Corporation Enhancing classification and prediction using predictive modeling
WO2016033883A1 (zh) * 2014-09-04 2016-03-10 国家电网公司 一种基于Adaboost的输电线舞动风险预警方法
CN105809287A (zh) * 2016-03-10 2016-07-27 云南大学 一种高压输电线路覆冰过程综合预测方法
CN109886396A (zh) * 2019-03-18 2019-06-14 国家电网有限公司 一种输电线路舞动在线预测系统及方法
CN110135017A (zh) * 2019-04-26 2019-08-16 国网江西省电力有限公司电力科学研究院 一种基于山地微地形特殊风场的输电线路风偏计算方法
CN110188397A (zh) * 2019-05-06 2019-08-30 南瑞集团有限公司 一种架空输电线路覆冰预测模型和方法
CN110929611A (zh) * 2019-11-12 2020-03-27 中国地质大学(武汉) 一种基于pr-kelm的输电线路覆冰厚度预测模型的建模方法
CN111445080A (zh) * 2020-04-01 2020-07-24 中电万维信息技术有限责任公司 一种基于随机森林的西北内陆河生态基流预测方法
CN111783840A (zh) * 2020-06-09 2020-10-16 苏宁金融科技(南京)有限公司 一种随机森林模型的可视化方法、装置及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103616099A (zh) * 2013-11-25 2014-03-05 国家电网公司 输电线路光纤复合地线覆冰的频域分析的状态监测方法
WO2016033883A1 (zh) * 2014-09-04 2016-03-10 国家电网公司 一种基于Adaboost的输电线舞动风险预警方法
US9171259B1 (en) * 2015-01-12 2015-10-27 Bank Of America Corporation Enhancing classification and prediction using predictive modeling
CN105809287A (zh) * 2016-03-10 2016-07-27 云南大学 一种高压输电线路覆冰过程综合预测方法
CN109886396A (zh) * 2019-03-18 2019-06-14 国家电网有限公司 一种输电线路舞动在线预测系统及方法
CN110135017A (zh) * 2019-04-26 2019-08-16 国网江西省电力有限公司电力科学研究院 一种基于山地微地形特殊风场的输电线路风偏计算方法
CN110188397A (zh) * 2019-05-06 2019-08-30 南瑞集团有限公司 一种架空输电线路覆冰预测模型和方法
CN110929611A (zh) * 2019-11-12 2020-03-27 中国地质大学(武汉) 一种基于pr-kelm的输电线路覆冰厚度预测模型的建模方法
CN111445080A (zh) * 2020-04-01 2020-07-24 中电万维信息技术有限责任公司 一种基于随机森林的西北内陆河生态基流预测方法
CN111783840A (zh) * 2020-06-09 2020-10-16 苏宁金融科技(南京)有限公司 一种随机森林模型的可视化方法、装置及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAN WANG等: "Early warning method for transmission line galloping based on SVM and AdaBoost bi‐level classifiers", 《GENERATION, TRANSMISSION & DISTRIBUTION, IET》 *
王熹 等: "江西省输电线路覆冰厚度区域性分布规律", 《电力勘测设计》 *
罗扬燚 等: "基于随机森林算法的电线覆冰检测技术", 《成都信息工程大学学报》 *
陈勇等: "基于PCA-GA-LSSVM的输电线路覆冰负荷在线预测模型", 《电力系统保护与控制》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491416A (zh) * 2022-02-23 2022-05-13 北京百度网讯科技有限公司 特征信息的处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112597629B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN108227041B (zh) 基于站点实测数据和模式结果的水平能见度预报方法
CN109958588B (zh) 结冰预测方法、装置、存储介质、模型生成方法及装置
CN108375808A (zh) Nriet基于机器学习的大雾预报方法
CN105808819B (zh) 一种输电线路覆冰实时分布模型计算方法
CN109214675B (zh) 一种输电线路覆冰风险评估方法
CN111523699A (zh) 一种基于综合状态健康度的架空线路故障概率预测方法
CN111428942B (zh) 基于变网格技术提取微地形因子的线路覆冰厚度预测方法
CN107526083B (zh) 一种基于天气雷达数据的强对流风力等级预测方法
CN105809287A (zh) 一种高压输电线路覆冰过程综合预测方法
CN104318347A (zh) 一种基于多传感器信息融合的输电线路覆冰状态评估方法
CN104573873B (zh) 一种基于模糊决策树的航站楼离港旅客流量预测方法
CN109948839B (zh) 架空输电线路舞动风险的预测和预警方法及系统
CN104578061A (zh) 一种架空输电线路导线设计冰厚的预估方法
CN115935215B (zh) 极端天气下基于深度学习的输电线路覆冰预警方法及系统
CN110570693A (zh) 一种基于可靠性的航班运行时间预测方法
CN112215416B (zh) 智能规划巡检航线系统及方法
CN113435630B (zh) 一种产流模式自适应的流域水文预报方法及系统
CN112597629B (zh) 导线覆冰有无决策树模型的建立方法及对覆冰有无判定和预测覆冰持续时间的方法
CN109460923B (zh) 一种输电线覆冰概率预测方法
CN106772697B (zh) 云海自然景观预报方法及系统
Dekanová et al. Avalanche forecasting using neural network
CN115902812A (zh) 一种短时暴雨天气背景自动判别方法、系统、设备及终端
CN112949920B (zh) 一种基于观冰代表站数据的区域覆冰预测及预警方法
CN113065253B (zh) 一种基于深度学习的输电线路覆冰类型预测方法
CN104615868B (zh) 一种输电线路覆冰有无判别和覆冰厚度预报方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 330096 426 Jingdong Avenue, Nanchang hi tech Development Zone, Jiangxi

Patentee after: POWER CHINA GROUP JIANGXI ELECTRIC POWER DESIGNING INSTITUTE Co.,Ltd.

Address before: 330096 no.426 Jingdong Avenue, high tech Development Zone, Qingyunpu District, Nanchang City, Jiangxi Province

Patentee before: POWER CHINA GROUP JIANGXI ELECTRIC POWER DESIGNING INSTITUTE Co.,Ltd.

CP02 Change in the address of a patent holder