CN107977727B - 一种基于社会发展和气候因素预测光缆网阻断概率的方法 - Google Patents
一种基于社会发展和气候因素预测光缆网阻断概率的方法 Download PDFInfo
- Publication number
- CN107977727B CN107977727B CN201710510680.5A CN201710510680A CN107977727B CN 107977727 B CN107977727 B CN 107977727B CN 201710510680 A CN201710510680 A CN 201710510680A CN 107977727 B CN107977727 B CN 107977727B
- Authority
- CN
- China
- Prior art keywords
- level
- data
- fault
- optical cable
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 73
- 238000011161 development Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000000903 blocking effect Effects 0.000 title claims abstract description 32
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 238000013480 data collection Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 33
- 238000003066 decision tree Methods 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 12
- 238000013138 pruning Methods 0.000 claims description 9
- 238000001556 precipitation Methods 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000009435 building construction Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000018109 developmental process Effects 0.000 description 33
- 230000008569 process Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- ZPEZUAAEBBHXBT-WCCKRBBISA-N (2s)-2-amino-3-methylbutanoic acid;2-amino-3-methylbutanoic acid Chemical compound CC(C)C(N)C(O)=O.CC(C)[C@H](N)C(O)=O ZPEZUAAEBBHXBT-WCCKRBBISA-N 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 229920002160 Celluloid Polymers 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 238000013101 initial test Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G06Q50/40—
Abstract
本发明提供一种基于社会发展和气候因素预测光缆网阻断概率的方法,包括确定台站站点,输入与台站站点相关的属性数据,包括根据巡线工作日常规律、社会发展与气候数据特点确定数据搜集的时间范围,确定对应周期下不同站点的社会发展属性数据和气候属性数据;设定故障级别划分,对所有属性数据进行归一化;基于机器学习构建光缆网故障概率的预测模型,当精度满足条件时根据预测模型进行预测光缆网阻断概率。本发明能够准确提供光缆网故障的预测结果,使巡线维护光缆网更有针对性,有助于提高光缆网巡线工作人员的效率。
Description
技术领域
本发明属于数据挖掘分析领域,尤其涉及一种基于社会发展和气候因素实现对光缆网阻断概率预测的方法。
背景技术
光缆网是我国公用通信网的重要组成部分,是信息高速路的基石,是影响社会发展、人民起居生活的重要因素。加强光缆网线路巡回工作,排除隐患,避免故障发生是维护光缆网的一条重要原则。然而,维护光缆网的现状是人少线路多,这给维护工作带来了很大的难度。因此,一种有效的能预测光缆网阻断概率的方法,对提高维护光缆网巡线人员的工作效率具有重要的作用。
利用光缆设备告警信息对故障进行推断是目前判断光缆网故障的主要方法。这种方法需要挖掘不同光缆网设备、不同告警类别之间的关联关系,在关联规则的作用下推断出故障。然后监控人员或维护人员通过人工查询资源系统,结合主观经验进行综合分析,判定为光缆故障后,再通知光缆维护岗位人员进行抢修处理。如果是线路故障还需要使用测试仪器进一步锁定具体故障的位置。这是一种后验的方法,需要在故障发生后引起的告警信息中判断故障,实施难度大,处理过程复杂,很难将其用于巡线的预测中。
相关的参考文献如下:
[1]侯德芹.基于数据挖掘的光传输网故障诊断研究[D].北京交通大学,2015.
[2]苏醒,张璐.一种光传送网告警分级预警算法[J].光通信研究,2016(3).
[3]Shen Y,Liu J,Shen J.The Further Development of Weka Base onPositive and Negative Association Rules[C]//2010international conference onintelligent computation technology and automation.2010:811-814.
[4]Yeong W C,Khoo M B C,Ou Y,et al.Economic-Statistical Design of theSynthetic X-Chart with Estimated Process Parameters[J].Quality&ReliabilityEngineering,2014,31(5):863–876.
[5]Ghiasabadi A,Noorossana R,Saghaei A.Identifying change point of anon-random pattern on,control chart using artificial neural networks[J].TheInternational Journal of Advanced Manufacturing Technology,2013,67(5):1623-1630.
[6]郑庆国,吕卫锋.通信网络中的告警相关性研究[J].计算机工程与应用,2002,38(2):11-14.
[7]毛广莉,黄梓龙,罗昌隆.电信网告警数据库中的数据挖掘[J].计算机应用研究,2000,17(8):98-99.
[8]Gürer D W,Khan I,Ogier R,et al.An Artificial Intelligence Approachto Network Fault Management[J].Sri International,1996.
发明内容
针对上述存在的问题,本发明目的是提供一种基于社会发展和气候因素预测光缆网阻断概率的方法,使用社会发展、气候因素的采集数据,构建其对光缆网故障影响的学习模型,从而得到数据驱动的巡线预测结果,提高光缆网巡线的准确度。
为达到上述目的,本发明采用如下的技术方案:
一种基于社会发展和气候因素预测光缆网阻断概率的方法,包括以下步骤:
步骤1,确定台站站点,在光缆网拓扑图上选择巡线线路,取巡线线路上故障数量较多的台站所在地,记为C{city1,city2,...,cityJ},其中,J为城市总数,各城市分别记为city1,city2,...,cityJ;
步骤2,输入与台站站点相关的属性数据,包括根据巡线工作日常规律、社会发展与气候数据特点确定数据搜集的时间范围,将数据采集的周期记为T{time1,time2,...,timeI},其中I为周期总数,各周期分别记为time1,time2,...,timeI;确定对应周期T=timei下不同C=cityj的社会发展属性数据和气候属性数据,
步骤3,整理数据集,包括基于光缆网故障数据,根据步骤4所采用的学习模型类型设定相应的故障级别划分,设有L个级别,分别记为level_L1,level_L2,…level_LL,设表示城市j第i周期的光缆网故障级别;对所有属性数据进行归一化;
步骤4,基于机器学习构建光缆网故障概率的预测模型,包括根据逐周期预测策略,将归一化后的社会发展属性数据和气候属性数据与故障数据进行匹配,形成输入数据集,
......
并将输入数据集分为训练集与测试集,采用训练集训练预测模型,得到预测模型参数;
步骤5,采用测试集验证步骤4所得预测模型参数,当精度满足条件时得到预测模型,根据预测模型进行预测光缆网阻断概率。
而且,社会发展属性数据包括固定资产投资、房地产开发投资、房屋施工面积、房屋竣工面积和商品房销售面积。
而且,气候属性数据包括平均温度、平均最高温度、平均最低温度、极端最高温度、极端最低温度、平均降水量、降水天数和平均风速。
而且,数据采集的周期以月份为单位。
而且,设任一种属性数据记为featurep,p=1,2,…P,P=M+N,归一化如下,
其中,等式右边为初始的属性数据,左边为初始的属性数据归一化之后的结果。
而且,光缆网故障概率的预测模型采用贝叶斯模型,实现如下,
根据训练集计算后验概率P{level_Ll|feature},并根据后验概率计算将feature={feature_sm,feature_wn}中每种属性featurep分类为第level_Ll故障的期望损失如下,
其中,λlp表示属性featurep的值对故障级别为level_Ll的影响程度;P(level_Ll|featurep)表示对于属性featurep,将其分为故障级别level_Ll的后验概率;
基于最小化风险的理论得到贝叶斯模型h*(feature)如下
而且,光缆网故障概率的预测模型采用决策树模型,实现如下,
对于训练集D={level_Ll,{featurep}},设其中第level_Ll类故障样本的集合记为Dl,
计算数据集D按照故障级别划分的信息熵如下,
将某属性featurep的值按范围切分,设将数据集D根据属性featurep的值进行划分得到V个数据集,计算属性featurep对于数据集划分的期望信息熵如下,
其中,Dv是表示featurep取值在第v个范围内的数据集,v=1,2,…V;
计算数据集Dv按照故障级别划分的信息熵如下,
其中,p′l表示数据集Dv中第level_Ll类故障样本所占的比例;
计算featurep对于数据集进行划分的信息增益如下,
根据该信息增益进行属性分支。
而且,决策数模型基于最大信息增益将构建出属性决策树,以属性featurep为非叶子节点,以故障级别level_Ll为叶子节点,树枝上的值为对应属性的取值范围;根据属性的值v来进行分支,向下分支直接得到故障级别时,将其作为叶子节点,不再继续分支,否则选用一个其他属性作为节点,以此节点的属性值继续向下分支,以此类推,直到所有节点均为故障级别的叶子节点。
而且,对属性决策树运用剪枝处理,防止过拟合。
而且,步骤4中训练多种预测模型,步骤5中比较各模型效果,选取最优的预测模型。
本发明具有以下优点和积极效果:
1)本发明提出选取社会发展和气候这两个对光缆网影响最为密切的外因,作为巡线预测的源数据。社会发展因素主要包括:GDP、房地产开发投资、房屋施工面积等能够反映城市土地建设的相关数据,在这些动土活动中极有可能对光缆网造成物理破坏;气候因素主要包括:平均温度、平均降水量、降水天数、平均风速等相对稳定的数据,对光缆网的影响是呈规律性的,是预测光缆网阻断的重要依据。
2)本发明优选采用决策树模型和贝叶斯模型,进一步地支持多种机器学习模型,具有较高的灵活性、适用性。对于输入数据集(社会发展和气候、故障数)和输出结果(预测故障数),可以考虑不同模型输出结果的精度进行优选。
3)本发明从具体工作出发,对实际工作具有较强的指导性。不仅是对社会发展、气象和光缆网之间关系的发现,更是对光缆网故障的预测。预测结果使巡线维护光缆网更有针对性,有助于提高光缆网巡线工作人员的效率,在实际应用中也具有较强的指导性,具有重要的市场价值。
附图说明
图1是本发明实施例的总体流程图;
图2是本发明实施例的训练集中数据结构示意图;
图3是本发明实施例的决策树模型;
图4是本发明实施例的决策树剪枝过程。
具体实施方式
下面结合附图和实施例对本发明技术方案作进一步说明。
本发明提出的是一种基于社会发展和气候因素预测光缆网阻断概率的方法。本发明考虑到,社会发展和气象因素对光缆网预测起着至关重要的作用。光缆网阻断的原因主要有两个方面,一是内因,即线路或设备老化导致的阻断,光缆网设备精细、线路也多埋于地下,很难依靠人工巡线发现这个类型的阻断;二是外因,即外部环境变化造成的阻断,比如:管道或房地产开工造成的物理破坏、温度或湿度变化引起设备性能下降等,巡线人员的工作主要集中在这类故障的巡查上。仅仅利用光缆设备告警信息对故障进行推断的方法,没有充分利用外因来辅助光缆网阻断预测。更为重要的是,内因会在线路设备设计阶段予以充分考虑,但外因是不可预知的,是光缆网故障的主要来源。运用外因预测光缆网阻断是面向实际工作需要的,具有比较高的研究价值。
社会发展和气候因素是造成光缆网阻断的外因,这些因素很难与光缆网阻断构成严格的数学模型,所以不能直接用以预测。机器学习的特点是在规律未知的前提下,能够通过学习的方式达到一定的目标,是解决该问题的有效方法。
本发明在分析当前研究的基础上,结合数据挖掘分析专业背景,考虑与光缆网故障最密切相关的社会发展因素和气候因素,基于机器学习模型,提出一种光缆网阻断概率预测的方法,以达到提升光缆网巡线的准确度、提高巡线人员工作效率的目的。
参见图1,实施例提供的预测光缆网阻断概率方法包括具体步骤如下:
步骤1:确定台站站点。
在光缆网拓扑图上选择巡线线路,整理巡线上所有台站站点。
训练集需要有大量的数据支撑,模型才能准确,在巡线线路上拣选故障数量较多的台站所在地,记为C{city1,city2,...,cityJ},其中,J为城市总数,各城市分别记为:city1,city2,...,cityJ。实施例中选用了“北京—九江—广州”线的重点台站,包括:北京、衡水、商丘、阜阳、合肥、九江、南昌、赣州、广州,依次编号为:1,2,...,11,有C{city1,city2,...,city11}。
具体实施时,可以预设相应阈值,在巡线线路上拣选故障数量大于阈值的台站所在地。
步骤2:搜集整理与台站站点相关的社会发展和气候数据。
进一步的,实现方式如下:
2.1根据巡线工作日常规律、社会发展与气候数据特点确定数据搜集的时间范围,巡线预测的目的是为了合理规划巡线周期,优化工作时间分配、提高工作效率。此外,对于预测周期还需要考虑社会发展和气候外因数据采集的周期,周期记为T{time1,time2,...,timeI},其中I为周期总数,各周期分别记为time1,time2,...,timeI。实施例中以月份为单位,即对不同的月份进行巡线预测,记为T{time1,time2,...,time12},下标即月计数。
2.2输入对应时间段内与台站站点相关的社会发展和气候数据。具体实施时,采集数据应当详实充足。收集并整理对应周期T=timei下不同C=cityj的社会发展属性数据,记为:气候属性数据记为:其中,i=1,2,…I,j=1,2,…J,实施例中I=12,J=M+N=11。在实施例中社会发展数据共计M=5个,分别为:固定资产投资(亿元)、房地产开发投资(亿元)、房屋施工面积(万平方米)、房屋竣工面积(万平方米)、商品房销售面积(万平方米),有:具体实施时还可以选择GPD等其他社会发展数据。气候数据共计N=8个,分别为:平均温度(℃)、平均最高温度(℃)、平均最低温度(℃)、极端最高温度(℃)、极端最低温度(℃)、平均降水量(毫米)、降水天数(天)、平均风速(米/秒),有:
步骤3:整理数据集。
进一步的,实现方式如下:
3.1光缆网故障数据分级预处理,根据后续步骤学习模型类型,对故障数据进行相应的整理,设定故障级别划分。具体实施时,可预先设置所用的学习模型类型,以及相应的故障级别划分。
该步骤需要结合步骤4.1选择的学习模型进行相应的数据预处理,目的是为了使数据符合模型对输入数据的要求。实施例中采用了贝叶斯模型和决策树学习模型,是典型的分类学习模型。结合本案例数据特点,需对通信故障数据进行多分类处理,也就是根据故障数量Num设计故障级别L={level_L1,level_L2,…level_LL}。本实施例中具体划分为L=4个级别,对应故障数量范围为:
level_L1:0-4
level_L2:5-9
level_L3:10-19
level_L4:≥20
3.2分组数据集。
将实施例中11个城市的12个月份的社会发展数据、气候数据共13种数据和相应月份和城市的4个故障级别对应,构建数据集。
由于社会发展数据和气候数据的单位、精度不一致,因而在构建数据集的过程中,对所有属性数据feature_s1,feature_s2,...,feature_s5、feature_w1,feature_w2,...,feature_w8分别进行归一化操作,设其中任一种属性数据记为featurep,p=1,2,…P,P=M+N,归一化公式:
其中,等式右边为初始的属性数据,左边为初始的属性数据归一化之后的结果。
为方便评估学习模型预测效果,用留出法将数据集分为“训练集”和“测试集”,用“训练集”训练学习模型,用“测试集”评估学习模型。本实施例中
按照月份将前1-9月的数据集划分为初始的训练集,即:
其中,i=1,2,...,9;j=1,2,...,11。
10-12月份的数据集划分为初始的测试集,即:
其中,i=10,11,12;j=1,2,...,11。
步骤4,基于机器学习构建光缆网故障概率预测模型。
进一步的,实现方式如下:
4.1设定预测策略,本发明提出选择社会发展和气候的历史数据,与故障数据形成预测策略。预测策略一般分为逐周期预测与累积预测,逐周期预测是用前置周期的数据预测下一周期故障级别,累积预测是用前置所有数据之和预测下一周期故障级别。累积预测需要有长时间积累大量的外因数据以及故障数据,逐周期预测相对灵活数据收集难度也较低,比如:逐季度、逐月、逐周等。本实施例采用逐月的预测策略,这与大多城市的社会发展数据多以月为单位统计相一致。根据故障处理方法、预测策略,将社会发展数据和气象数据与故障数据进行匹配,形成输入数据集,即将归一化后的社会发展属性数据和气候属性数据与故障数据进行匹配,形成输入数据集:
......
将输入数据集分为训练集与测试集,采用训练集训练预测模型,得到预测模型参数;
那么实施例中即有:
前1-9月的数据集划分为最终的训练集,即:
10-12月份的数据集划分为最终的测试集,即:
4.2训练光缆网故障概率的预测模型。
可对步骤4.1所得训练集进行分组标示,逐组输入到预测模型中,记录各组学习结果,通过采用训练集训练预测模型,得到预测模型参数。
机器学习中分类预测的模型很多,如:贝叶斯模型、决策树模型、支持向量机、神经网络等。在本实施例中,优选采用以下贝叶斯模型和决策树模型,可以采用其中一种即可。
进一步地,具体实施时,也可以采用多种不同模型,通过选择评估方法、测得学习器的性能度量结果、再进行比较检验得到最优的模型选择。
4.2.1贝叶斯模型
贝叶斯模型是基于概率论的理论来构建预测模型的方法。本发明实施例提出利用贝叶斯模型进行预测:
实施例中共有L={level_L1,level_L2,level_L3,level_L4}4种故障级别,根据“训练集”的数据项计算后验概率P{level_Ll|feature},l=1,2,3,4,并根据后验概率计算将feature={feature_sm,feature_wn},m=1,2,...,5;n=1,2,...,8中每种属性featurep分类为第level_Ll故障的期望损失,也就是在属性上的“条件风险”,p=1,2,…P,P=M+N:
其中λlp表示属性featurep的值对故障级别为level_Ll的影响程度,λlp越大表示越重要,λlp越小表示影响越小;P(level_Ll|featurep)表示对于属性featurep,将之分为故障级别level_Ll的后验概率。
因而,基于最小化风险的理论得到故障预测的贝叶斯模型h*(feature):
4.2.2决策树模型
决策树模型是基于信息熵(information entropy)理论来构建预测模型的方法。本发明实施例提出利用决策树模型进行预测:
设某个训练样本包括相应属性{featurep}和所属的类别level_Ll,对于“训练集”D={level_Ll,{featurep}},设其中第level_Ll类故障样本的集合记为Dl。计算数据集D按照故障级别划分的信息熵为:
将某属性featurep的值按范围切分成[valmin,val2),[val2,val3),....,[valV,valmax),若将数据集D根据属性featurep的值进行划分,设得到V个数据集,计算属性featurep对于数据集划分的期望信息熵:
其中,Dv是表示featurep取值在第v个范围[valv,valv+1)内的数据集,v=1,2,…V。
计算数据集Dv按照故障级别划分的信息熵为:
其中,p′l表示数据集Dv中第level_Ll类故障样本所占的比例。
然后计算featurep对于数据集进行划分的信息增益:
根据该信息增益来进行属性分支。
决策数模型基于最大信息增益将构建出属性决策树,以属性featurep为非叶子节点,以故障级别level_Ll为叶子节点,树枝上的值为对应属性的取值范围,如图3所示本实施例的决策树预测模型,树中的某个节点featurep,它是以属性名称,根据该属性的值v来进行分支,每条分支代表该属性的一个取值范围[valmin,valmax),当v∈[valmin,valmax)时,沿着该分支继续向下分支。
向下分支可能直接得到故障级别level_Ll,此时将其作为叶子节点,不再继续分支。若向下分支不能直接判断故障级别,则选用一个其他属性featurep+1作为节点,以此节点的属性值继续向下分支,以此类推,直到所有节点均为故障级别的叶子节点。
决策树模型容易产生“过拟合”问题,虽然对“训练集”的预测效果较好,但模型的泛化性降低,适用于预测“测试集”或其他数据集时候,效果可能不太理想。本发明进一步提出为减少模型“过拟合”问题,运用剪枝(pruning)处理,剪枝过程如图4所示:
对于每一个非叶子节点,剪枝操作先将该节点视为叶子节点,故障级别为所有子数据集中的频繁项。子数据集通过节点向下继续分支的过程得到,包括从该过程中判断所得数据集,频繁项为某一故障级别最多的项。对比这两种树模型的评估效果,如果作为叶子节点效果好的话就进行剪枝,否则不进行剪枝。对所有非叶子节点进行处理后,最终形成优化后的决策树模型。
步骤5,采用测试集验证步骤4学习所得预测模型参数:
使用测试集,根据所学习的参数,计算预测与真实之间的混淆矩阵,确定模型精度。当精度满足条件时输出预测模型和参数,即可根据预测模型进行预测光缆网阻断概率。具体实施时,本领域技术人员可以预设精度相应条件。
本实施例中,根据故障级别的数目,得到
贝叶斯模型的实验数据集混淆矩阵如下,
决策树模型的实验数据集混淆矩阵如下,
将测试集的数据应用到步骤4的模型,针对每条属性记录预测故障分类,将该结果与测试集中的故障分类结果对比,得到对模型的评估效果。如果步骤4采用了多个模型,可以根据评估效果选择最优的模型进行预测。
将样例根据真实类别与学习其预测类别的组合划分为真正例、假正例、真反例、假反例四种情形,令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数。
查全率R与差准率P用以评价学习效果的指标,分别定义为:
本实施例中,故障预测为多分类预测,故构建混淆矩阵以描述,有:
pre_level_L<sub>1</sub> | pre_level_L<sub>2</sub> | pre_level_L<sub>3</sub> | pre_level_L<sub>4</sub> | |
level_L<sub>1</sub> | a<sub>11</sub> | a<sub>12</sub> | a<sub>13</sub> | a<sub>14</sub> |
level_L<sub>2</sub> | a<sub>21</sub> | a<sub>22</sub> | a<sub>23</sub> | a<sub>24</sub> |
level_L<sub>3</sub> | a<sub>31</sub> | a<sub>32</sub> | a<sub>33</sub> | a<sub>34</sub> |
level_L<sub>4</sub> | a<sub>41</sub> | a<sub>42</sub> | a<sub>43</sub> | a<sub>44</sub> |
其中,pre_level_Li是预测集在学习模型中计算的结果,level_Lj是数据集真实的故障等级结果,aij表示预测模型预测为第level_Li类故障级别实际为第level_Lj类故障。
对每一故障类别,查全率R与差准率P分别定义为:
查全率与查准率是一对矛盾度量,需使用F度量评价指标平衡查全率与查准率。由于在故障预测中更希望尽可能少漏掉故障发生的可能,那么,对于F度量的调节因子β,则有β>1,查全率有更重要的作用,根据调节因子β的F度量值Fβ可表示为:
具体实施时,本发明技术方案可采用计算机软件技术实现自动运行流程。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变换或变型,因此所有等同的技术方案,都落入本发明的保护范围。
Claims (10)
1.一种基于社会发展和气候因素预测光缆网阻断概率的方法,包括以下步骤:
步骤1,确定台站站点,在光缆网拓扑图上选择巡线线路,取巡线线路上故障数量较多的台站所在地,记为C{city1,city2,...,cityJ},其中,J为城市总数,各城市分别记为city1,city2,...,cityJ;
步骤2,输入与台站站点相关的属性数据,包括根据巡线工作日常规律、社会发展与气候数据特点确定数据搜集的时间范围,将数据采集的周期记为T{time1,time2,...,timeI},其中I为周期总数,各周期分别记为time1,time2,...,timeI;确定对应周期T=timei下不同C=cityj的社会发展属性数据和气候属性数据,i=1,2,…I,j=1,2,…J;
步骤3,整理数据集,包括基于光缆网故障数据,根据步骤4所采用的学习模型类型设定相应的故障级别划分,设有L个级别,分别记为level_L1,level_L2,…level_LL,设表示城市j第i周期的光缆网故障级别;对所有属性数据进行归一化;
步骤4,基于机器学习构建光缆网故障概率的预测模型,包括根据逐周期预测策略,将归一化后的社会发展属性数据和气候属性数据与故障数据进行匹配,形成输入数据集,
......
并将输入数据集分为训练集与测试集,采用训练集训练预测模型,得到预测模型参数;
步骤5,采用测试集验证步骤4所得预测模型参数,当精度满足条件时得到预测模型,根据预测模型进行预测光缆网阻断概率。
2.根据权利要求1所述基于社会发展和气候因素预测光缆网阻断概率的方法,其特征在于:社会发展属性数据包括固定资产投资、房地产开发投资、房屋施工面积、房屋竣工面积和商品房销售面积。
3.根据权利要求1所述基于社会发展和气候因素预测光缆网阻断概率的方法,其特征在于:气候属性数据包括平均温度、平均最高温度、平均最低温度、极端最高温度、极端最低温度、平均降水量、降水天数和平均风速。
4.根据权利要求1或2或3所述基于社会发展和气候因素预测光缆网阻断概率的方法,其特征在于:数据采集的周期以月份为单位。
6.根据权利要求5所述基于社会发展和气候因素预测光缆网阻断概率的方法,其特征在于:光缆网故障概率的预测模型采用贝叶斯模型,实现如下,
根据训练集计算后验概率P{level_Ll|feature},并根据后验概率计算将feature={feature_sm,feature_wn}中每种属性featurep分类为第level_Ll故障的期望损失如下,
其中,λlp表示属性featurep的值对故障级别为level_Ll的影响程度;P(level_Ll|featurep)表示对于属性featurep,将其分为故障级别level_Ll的后验概率;
基于最小化风险的理论得到贝叶斯模型h*(feature)如下
7.根据权利要求5所述基于社会发展和气候因素预测光缆网阻断概率的方法,其特征在于:光缆网故障概率的预测模型采用决策树模型,实现如下,
对于训练集D={level_Ll,{featurep}},设其中第level_Ll类故障样本的集合记为Dl,计算训练集D按照故障级别划分的信息熵如下,
将某属性featurep的值按范围切分,设将训练集D根据属性featurep的值进行划分得到V个数据集,计算属性featurep对于数据集划分的期望信息熵如下,
其中,Dv是表示featurep取值在第v个范围内的数据集,v=1,2,…V;
计算数据集Dv按照故障级别划分的信息熵如下,
其中,pl′表示数据集Dv中第level_Ll类故障样本所占的比例;
计算featurep对于训练集进行划分的信息增益如下,
根据该信息增益进行属性分支。
8.根据权利要求7所述基于社会发展和气候因素预测光缆网阻断概率的方法,其特征在于:决策数模型基于最大信息增益将构建出属性决策树,以属性featurep为非叶子节点,以故障级别level_Ll为叶子节点,树枝上的值为对应属性的取值范围;根据属性的值v来进行分支,向下分支直接得到故障级别时,将其作为叶子节点,不再继续分支,否则选用一个其他属性作为节点,以此节点的属性值继续向下分支,以此类推,直到所有节点均为故障级别的叶子节点。
9.根据权利要求7所述基于社会发展和气候因素预测光缆网阻断概率的方法,其特征在于:对属性决策树运用剪枝处理,防止过拟合。
10.根据权利要求1或2或3所述基于社会发展和气候因素预测光缆网阻断概率的方法,其特征在于:步骤4中训练多种预测模型,步骤5中比较各模型效果,选取最优的预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710510680.5A CN107977727B (zh) | 2017-06-28 | 2017-06-28 | 一种基于社会发展和气候因素预测光缆网阻断概率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710510680.5A CN107977727B (zh) | 2017-06-28 | 2017-06-28 | 一种基于社会发展和气候因素预测光缆网阻断概率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107977727A CN107977727A (zh) | 2018-05-01 |
CN107977727B true CN107977727B (zh) | 2021-06-04 |
Family
ID=62012265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710510680.5A Active CN107977727B (zh) | 2017-06-28 | 2017-06-28 | 一种基于社会发展和气候因素预测光缆网阻断概率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107977727B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598177B (zh) * | 2019-08-06 | 2023-07-25 | 广东工业大学 | 一种基于环境相依失效的输电线路联合故障概率计算方法 |
CN111611146B (zh) * | 2020-06-18 | 2023-05-16 | 南方电网科学研究院有限责任公司 | 一种微服务故障预测方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003052660A1 (en) * | 2001-12-17 | 2003-06-26 | Corning Incorporated | System for selecting optical fiber reels from inventory to fill an order |
CN103714401A (zh) * | 2014-01-21 | 2014-04-09 | 国家电网公司 | 一种电网配变故障次数预测的方法 |
CN104281888A (zh) * | 2014-09-16 | 2015-01-14 | 国家电网公司 | 一种配电网架空输电导线断线风险指数预测方法 |
CN105185012A (zh) * | 2015-10-28 | 2015-12-23 | 国网浙江杭州市萧山区供电公司 | 一种电网地下管线设施安全预警系统 |
CN105471647A (zh) * | 2015-12-03 | 2016-04-06 | 国网江西省电力公司信息通信分公司 | 一种电力通信网故障定位方法 |
CN106022518A (zh) * | 2016-05-17 | 2016-10-12 | 清华大学 | 一种基于bp神经网络的管道破损概率预测方法 |
CN106503885A (zh) * | 2016-09-28 | 2017-03-15 | 广西电网有限责任公司电力科学研究院 | 一种对电缆线路进行健康状态评估的方法 |
CN106529701A (zh) * | 2016-10-21 | 2017-03-22 | 国网吉林省电力有限公司信息通信公司 | 基于改进的萤火虫算法优化神经网络的光纤状态预测方法 |
CN106840450A (zh) * | 2016-12-29 | 2017-06-13 | 大连银海贡创科技发展有限公司 | 一种高精度光纤复合电缆智能监控平台 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130204662A1 (en) * | 2012-02-07 | 2013-08-08 | Caterpillar Inc. | Systems and Methods For Forecasting Using Modulated Data |
-
2017
- 2017-06-28 CN CN201710510680.5A patent/CN107977727B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003052660A1 (en) * | 2001-12-17 | 2003-06-26 | Corning Incorporated | System for selecting optical fiber reels from inventory to fill an order |
CN103714401A (zh) * | 2014-01-21 | 2014-04-09 | 国家电网公司 | 一种电网配变故障次数预测的方法 |
CN104281888A (zh) * | 2014-09-16 | 2015-01-14 | 国家电网公司 | 一种配电网架空输电导线断线风险指数预测方法 |
CN105185012A (zh) * | 2015-10-28 | 2015-12-23 | 国网浙江杭州市萧山区供电公司 | 一种电网地下管线设施安全预警系统 |
CN105471647A (zh) * | 2015-12-03 | 2016-04-06 | 国网江西省电力公司信息通信分公司 | 一种电力通信网故障定位方法 |
CN106022518A (zh) * | 2016-05-17 | 2016-10-12 | 清华大学 | 一种基于bp神经网络的管道破损概率预测方法 |
CN106503885A (zh) * | 2016-09-28 | 2017-03-15 | 广西电网有限责任公司电力科学研究院 | 一种对电缆线路进行健康状态评估的方法 |
CN106529701A (zh) * | 2016-10-21 | 2017-03-22 | 国网吉林省电力有限公司信息通信公司 | 基于改进的萤火虫算法优化神经网络的光纤状态预测方法 |
CN106840450A (zh) * | 2016-12-29 | 2017-06-13 | 大连银海贡创科技发展有限公司 | 一种高精度光纤复合电缆智能监控平台 |
Also Published As
Publication number | Publication date |
---|---|
CN107977727A (zh) | 2018-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Hourly energy consumption prediction of an office building based on ensemble learning and energy consumption pattern classification | |
Sun et al. | Using Bayesian deep learning to capture uncertainty for residential net load forecasting | |
CN106650767B (zh) | 基于聚类分析和实时校正的洪水预报方法 | |
CN108304668B (zh) | 一种结合水文过程数据和历史先验数据的洪水预测方法 | |
Thai-Nghe et al. | Deep learning approach for forecasting water quality in IoT systems | |
CN107169628B (zh) | 一种基于大数据互信息属性约简的配电网可靠性评估方法 | |
CN108009674A (zh) | 基于cnn和lstm融合神经网络的空气pm2.5浓度预测方法 | |
Han et al. | Intelligent decision model of road maintenance based on improved weight random forest algorithm | |
CN105701596A (zh) | 一种基于大数据技术的配网抢修精益化方法以及管理系统 | |
CN110059963A (zh) | 一种基于模糊多态贝叶斯网络的隧道风险评价方法 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN110335168B (zh) | 基于gru优化用电信息采集终端故障预测模型的方法及系统 | |
CN106934237A (zh) | 雷达抗干扰效能评估可信性度量实现方法 | |
CN107644297B (zh) | 一种电机系统节能量计算和验证方法 | |
CN107886160B (zh) | 一种bp神经网络区间需水预测方法 | |
CN106649479A (zh) | 一种基于概率图的变压器状态关联规则挖掘方法 | |
CN112285807A (zh) | 一种气象信息预测方法及装置 | |
CN115564114A (zh) | 一种基于图神经网络的空域碳排放短期预测方法及系统 | |
CN107977727B (zh) | 一种基于社会发展和气候因素预测光缆网阻断概率的方法 | |
CN116432123A (zh) | 一种基于cart决策树算法的电能表故障预警方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
Wibawa et al. | Long Short-Term Memory to Predict Unique Visitors of an Electronic Journal | |
CN110781206A (zh) | 一种学习拆回表故障特征规则预测在运电能表是否故障的方法 | |
CN113377750B (zh) | 水文数据清洗方法及系统 | |
CN114372631A (zh) | 一种基于小样本学习和lstm的缺资料地区径流预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |