CN112801367A - 基于计及罕见变量的ARMret模型的故障预测方法 - Google Patents

基于计及罕见变量的ARMret模型的故障预测方法 Download PDF

Info

Publication number
CN112801367A
CN112801367A CN202110114407.7A CN202110114407A CN112801367A CN 112801367 A CN112801367 A CN 112801367A CN 202110114407 A CN202110114407 A CN 202110114407A CN 112801367 A CN112801367 A CN 112801367A
Authority
CN
China
Prior art keywords
fault
rare
elements
degree
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110114407.7A
Other languages
English (en)
Inventor
孙辰昊
李泽文
邓丰
陈春
杨忠毅
胡博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202110114407.7A priority Critical patent/CN112801367A/zh
Publication of CN112801367A publication Critical patent/CN112801367A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Pure & Applied Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Mathematics (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于计及罕见变量的ARMret模型的故障预测方法,步骤1:挖掘罕见元素和常见元素并归类;步骤2:挖掘基于这些罕见元素的HILP元素,以高频变量集和频繁关联规则的形式体现;HILP是指高风险低概率;步骤3:对于训练数据集中的每一个环境特征,依次重复进行步骤1‑2;步骤4:求解各个元素的相对权重;步骤5:基于第:4步所求各个元素的相对权重,依据测试数据集各条故障记录中所含环境元素计算相应记录的预测故障风险度,并归一化;步骤6:将预测故障风险度与测试集中相应记录的真实故障处理结果相比较,从而评估所提出预测模型的性能。本发明的故障预测方法预测准确率高,易于实施。

Description

基于计及罕见变量的ARMret模型的故障预测方法
技术领域
本发明涉及一种基于计及罕见变量的关联规则挖掘故障分布预测模型(Association Rule Mining with Rare Elements and Time series,ARMret)。
背景技术
在所研究的各个输电线路系统外部环境特征与输电线路系统故障发生时段中,往往存在一些出现频率较低的环境元素以及一些故障发生较少的时段。但当面对环境特征中的不同环境元素以及不同时段时,传统ARM算法仍然采用相同且固定的重要度诊断标准得分计算方法及阈值设定方法,将导致包括罕见环境元素和罕见故障时段在内的罕见变量未经任何分析而被直接舍弃。考虑到这些罕见变量与真实故障之间同样存在关联性,因此对这些罕见变量进行挖掘和分析可以有效改善故障预测的准确性。
因此,有必要设计一种基于计及罕见变量的故障预测方法。
发明内容
本发明所要解决的技术问题是提供一种基于计及罕见变量的ARMret模型的故障预测方法,该基于计及罕见变量的ARMret模型的故障预测方法具有预测准确性高的特点。
发明的技术解决方案如下:
一种基于计及罕见变量的ARMret模型的故障预测方法,包括以下步骤:
步骤1:挖掘罕见元素和常见元素并归类;
在训练数据集中存储有多条关于电力故障的故障记录,针对某一个环境特征fj所含有的全部环境元素,采用基于条件重要度诊断标准阈值设定方法的重要度诊断标准计算方法挖掘出其中相应的罕见元素,余下的元素即为常见元素;
不含任何罕见元素的故障记录被归类于Sg
含有任意罕见元素的故障记录被归类于
Figure BDA0002919620700000014
Sg:变量映射空间,包含所有数据库中的故障记录;
Figure BDA0002919620700000012
变量映射空间,仅包含数据库中带有某一个特征fj中任意罕见环境元素的故障记录;
步骤2:挖掘基于这些罕见元素的HILP元素,以高频变量集和频繁关联规则的形式体现;
HILP是指高风险低概率;
步骤3:对于训练数据集中的每一个环境特征,依次重复进行步骤1-2;
步骤4:由下式求解各个元素的相对权重;
Figure BDA0002919620700000013
Figure BDA0002919620700000023
为环境特征fj的相对权重;若一个环境特征fj含有罕见环境元素,且一条故障记录X→Y中含有fj,则该环境特征fj的相对权重写为
Figure BDA0002919620700000021
其中,ti为输入数据库中的第i条故障记录;D={t1,t2,…,tm}为含有m条故障记录的输入数据库;Dy∈D={D1,D2,…,Dz}代表输入数据库D中一年的数据,即在一年内发生的故障(各条故障记录);D1,D2,…,Dz代表输入数据库D中第一年、第二年直至最后一年(Dz)的数据;
Xr:代表罕见变量集,包含特征中的所有罕见元素;
由于年度这一时间单位具有周期重复性,故本申请将输入数据按年度划分并分别进行挖掘,以便验证预测的效果
年度输入数据库Dy可以被写为:
Figure BDA0002919620700000022
式中:
第一个变量Dy:Dy∈D={D1,D2,…,Dz}代表输入数据库D中一年的数据,即在一年内所有发生故障的记录,D1,D2,…,Dz代表输入数据库D中第一年、第二年直至最后一年(Dz)的数据。
第二个变量ti:ti代表任意一个(位置为第i行)故障记录的编号。其中假设总计收录了m条故障记录,因此,i=1,2,…,m。
第三个变量fj:F={f1,f2,…,fj,…,fn,fY}为一个包含所有环境特征的集合,fj为环境特征变量(如天气),fY为相应的目标特征变量(目标变量,此处为故障是否处理成功)。
第四个变量vij:每一个环境特征fj都由一组环境元素ej,1,ej,2,…,ej,k,…,ej,l组成(特征“天气”包含元素:“晴天”、“阴天”、“多云”。。。),其中第一个下标表示元素对应第j个特征fj,其中第二个下标k=1,2,…,l表示总计l个元素中的任意一个。选定环境元素作为输入变量。设I={v1,v2,…}为一个包含所有输入变量的集合,则ej,k等同I中的任意一个变量vij(假设出现在第i行的故障记录中,对应第j个特征fj)。
第五个变量Yi:设{Y1,Y2,…,Yi,…,Ym}为所有的目标变量,具体为故障的实际处理结果。在处理故障时,共考虑两种故障处理措施:自动重合闸和强送电。因此,故障处理结果的设定如下:当故障发生时,若自动重合闸成功,则称为“成功”;若自动重合闸失败或未动作而强送电成功或未启用,则称为“勉强成功”;其他,则统称为“失败”。因此,出现在第i行的故障记录中目标变量Yi可采用三种故障处理结果中的一种(成功、勉强成功、失败)来表示,并设Y(hy)∈{Y(S),Y(P),Y(F)}代指三种故障处理结果(success、proper、failure)中的任意一种。
Figure BDA0002919620700000039
的计算公式中,
Figure BDA00029196207000000310
表示为同时满足位于年度输入数据库Dy中、所包括的fj中罕见变量集Xr存在这两个条件的故障记录条数;|ti∈Dy(i,1)|表示位于年度输入数据库Dy中所有故障记录的条数。
m是和|m|都代表故障记录;
关于ej,k:ej,k为I={v1,v2,…}中的任意一个变量,举例,如I为天气,则v1,v2等分别为“晴天”、“阴天”、“多云”。。。,相关解释如下:在Dy中,设F={f1,f2,…,fj,…,fn,fY}为一个包含所有环境特征的集合,fj为环境特征变量(如天气),fY为相应的目标特征变量(目标变量,此处为故障是否处理成功);每一个环境特征fj都由一组环境元素ej,1,ej,2,…,ej,k,…,ej,l组成(特征“天气”包含元素:“晴天”、“阴天”、“多云”。。。)。在本文中,选定环境元素作为输入变量。设I={v1,v2,…}为一个包含所有输入变量的集合,则ej,k等同I中的任意一个变量。
|ti∈Sg|表示Sg数据集中的故障记录的条数;
Figure BDA0002919620700000031
表示相应故障记录ti里必须包括关联规则X→Y左侧条件变量集中的环境元素ej,k;Dy(i,j)∈fj表示环境元素ej,k必须为环境特征fj中的元素;
X表示关联规则集,ej,m为环境元素。【目标集合Y,X→Y表示关联规则到目标集合的映射】
Figure BDA0002919620700000032
即为同时满足ti位于年度输入数据库Dy中以及所包括的fj中的罕见变量集Xr存在这两个条件的故障记录条数;
ti∈Dy(i,1)表示满足ti位于年度输入数据库Dy中,ti
Figure BDA0002919620700000033
集合中;fj为环境特征变量;
Figure BDA0002919620700000034
表示ti属于
Figure BDA0002919620700000035
集合中;
符号|…|代表同时满足所包含的全部条件的故障记录的条数;
步骤5:基于第:4步所求各个元素的相对权重,依据测试数据集各条故障记录中所含环境元素计算相应记录的预测故障风险度,并归一化,0表示不可能发生,1表示一定发生;
步骤6:将预测故障风险度与测试集中相应记录的真实故障处理结果相比较,从而评估所提出预测模型的性能。
步骤1中,基于条件重要度诊断标准阈值设定方法的重要度诊断标准计算方法为:
支持度、置信度、提升度、信服度及杠杆度阈值设定方法的数学表达分别表示为
Figure BDA0002919620700000036
Figure BDA0002919620700000037
Figure BDA0002919620700000038
Figure BDA0002919620700000041
Figure BDA0002919620700000042
式中:
下标hS:表示四个季度中的任意一个,即S(hS)∈{S(1),S(2),S(3),S(4)};S(1),S(2),S(3),S(4)分别表示春、夏、秋、冬;
下标hy:代指三种故障处理结果(成功Success、勉强成功(或者说部分成功)Proper、失败Failure)中的任意一种,即Y(hy)∈{Y(S),Y(P),Y(F)};因此,对于涉及故障处理结果的重要度诊断标准:置信度、提升度、信服度及杠杆度,在设定它们的条件重要度诊断标准阈值时,将分别依据故障处理结果实施设定。例如,
Figure BDA0002919620700000043
Figure BDA0002919620700000044
均仅对应故障处理结果为“成功”的故障记录。
下标0:代表上一个年度周期中相应的重要度诊断标准阈值(若分析第一年中的数据时,则为初始预设阈(一般考经验设置,先初设,再不断迭代优化,默认值可以取0.2))
变量ti:代表位于年度输入数据库Dy中第i行的故障记录。其中,i=2,3,…,(m+1)
符号|…|:代表年度输入数据库Dy中同时满足所包含的全部条件的故障记录的条数;
其中,ti∈Dy(i,1)表示相应故障记录ti必须位于年度输入数据库Dy中;Dy(i,n+3)=S(hs)表示相应故障记录ti必须发生于目前研究的季度hS中;Dy(i,n+2)=Y(hY)表示相应故障记录ti的处理结果必须为目前研究的hy中;
Figure BDA0002919620700000045
表示相应故障记录ti发生于该年度内故障发生频率最高的一个季度
Figure BDA0002919620700000046
中;因此,以支持度阈值设定方法
Figure BDA0002919620700000047
为例来说,|ti∈Dy(i,1);Dy(i,n+3)=S(hs)|即为同时满足位于年度输入数据库Dy中且发生于目前研究的季度hS中的所有故障记录的条数;
Figure BDA0002919620700000048
即为同时满足位于年度输入数据库Dy中且所在的季度为该年度内故障发生频率最高的季度
Figure BDA0002919620700000049
的所有故障记录的条数。
n为特征总数。参见前文矩阵D,总共有n+3列,即相当于从0到n+2;n+3表示第n+3列。
步骤2中,通过条件重要度诊断标准计算方法挖掘基于这些罕见元素的HILP元素;
Figure BDA00029196207000000410
Figure BDA0002919620700000051
Figure BDA0002919620700000052
Figure BDA0002919620700000053
Figure BDA0002919620700000054
式中:Y(hY)代表三种故障处理结果中的一种,hy∈{S,P,F}),Rg代表从2到(n+1)的数值区间。
式中:
下标j:表示当前公式仅适用于环境特征fj中罕见变量重要度的计算
下标hy:代指三种故障处理结果(Success、Proper、Failure)中的任意一种,即Y(hy)∈{Y(S),Y(P),Y(F)}。与重要度诊断标准的阈值设定策略类似,当涉及到故障处理结果的重要度诊断标准即置信度、提升度、信服度及杠杆度时,需要分别依据故障处理结果实施计算。例如,liftj,s、convj,s、levej,S均仅对应故障处理结果为“成功”的故障记录。
变量ti:代表位于年度输入数据库Dy中第i行的故障记录;其中,i=2,3,…,(m+1)
符号|…|:代表年度输入数据库Dy中同时满足所包含的全部条件的故障记录的条数;其中,ti∈Dy(i,1)表示相应故障记录i必须位于年度输入数据库Dy中;
Figure BDA0002919620700000055
表示相应故障记录ti中的常见变量集Xg不等于空集,其中,Rg代表从2到(n+1)的数值区间,用于确保常见变量集Xg所包含的常见元素由故障记录ti所记载;
Figure BDA0002919620700000056
表示相应故障记录ti所包括的fj中的罕见变量集Xr不等于空集,用于确保罕见变量集Xr所包含的常见元素必须对应于目前研究的特征fj且由故障记录ti所记载;
Dy(i,n+2)=Y(hY)表示相应故障记录i的处理结果必须为目前研究的hy中。因此以条件支持度计算方法suppj为例来说,
Figure BDA0002919620700000061
即为同时满足位于年度输入数据库Dy中、所包含常见变量集Xg存在以及所包括的fj中的罕见变量集Xr存在这三个条件的故障记录条数;
Figure BDA0002919620700000062
即为同时满足位于年度输入数据库Dy中以及所包括的fj中的罕见变量集Xr存在这两个条件的故障记录条数。
有益效果:
本发明设计了计及罕见变量的关联规则挖掘(Association Rule Mining withRare Elements and Time series,ARMret)预测模型,能够计及并分析输入数据中的罕见变量,从而提升模型的预测性能。
1首先,对输入数据进行了预处理,将所有数据整合到统一的处理空间中。
2然后,依据故障在各个时段中的分布提出了五种新的重要度诊断标准阈值设定方法,能够分别为各个时段更有针对性地设定不同的阈值,从而可以在从输入数据中挖掘罕见变量时计及故障罕见时段的影响。
3接下来,依据各个环境特征中罕见环境元素的分布对五种重要度诊断标准得分计算方法的传统形式进行了改进,能够为罕见环境元素设计与常见环境元素不同的得分计算方法,从而在从罕见变量中继续对高风险低概率(High Impact Low Probability,HILP)变量进行挖掘时计及罕见环境元素的影响。
4此外,还构建了两个变量映射空间以分别对常见变量和罕见变量与故障之间的相关程度进行分析,从而在计算输入数据相对权重时能够更加准确地衡量罕见变量的影响。
另外,最后,通过基于中部某省输电线路系统的实际算例结果可以得出:相比传统ARM预测模型,所提出的ARMret模型一方面通过计及输入数据中的罕见变量,能够改善模型的预测效果;另一方面也可以尽可能涵盖所有可能出现的故障类型以及环境状态,以加强ARMret模型在罕见或极端情况下的应对能力。
附图说明
图1为FP-Growth算法流程图;
图2为ARMret模型流程图;
图3为输入特征筛选流程图;
图4为故障结果测试预测效果对比示意图;其中图4(a)、图4(b)和图4(c)分别为成功(success)、合格(proper)和失败(failure)预测效果对比图;
图5为故障原因测试预测效果对比示意图。其中图5(a)、图5(b)和图5(c)分别对应接受者操作特性曲线下面积(AUROC)、标准误差(SE)和置信区间(CI)的示意图。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
ARMret预测模型的构建
输入数据的预处理
考虑到输电线路系统外部环境涉及多种不同的环境特征,为完成对输入环境特征的挖掘,需要对原始输入数据进行整合,并汇总到统一的数据处理空间中。
由于年度这一时间单位具有周期重复性,故本发明将输入数据按年度划分并分别进行挖掘,以便验证预测的效果。因此在本发明中,设Dy∈D={D1,D2,…,Dz}代表输入数据库D中一年的数据,即在一年内发生的故障。
在Dy中,设F={f1,f2,…,fj,…,fn,fY}为一个包含所有环境特征的集合,fj为环境特征变量,fY为相应的目标特征变量。每一个环境特征fj都由一组环境元素ej,1,ej,2,…,ej,k,…,ej,l组成。在本文中,选定环境元素作为输入变量。设I={v1,v2,…}为一个包含所有输入变量的集合,则ej,k等同I中的任意一个变量。
本发明设Y={Y1,Y2,…,Yi,…,Ym}为一个包含所有目标变量的集合,其中以故障的实际处理结果作为目标变量。本发明重点研究两种自动应对措施:自动重合闸以及强送电。当故障发生时,输电线路上的在线保护装置如断路器等将首先开始动作,下一步控制端再考虑是否采取强行送电的方式来尝试恢复线路供电。因此,二者中任意一个自动应对措施的成功都能极大地减小故障可能造成的损失。通过罗列这两个自动应对措施所有可能的执行结果,能够涵盖单次故障的所有实际处理结果。所有可能的故障处理结果如表1所示,其中自动重合闸中的“其他”代表未动作或未操作。
表1故障处理结果汇总
Figure BDA0002919620700000071
因此,任意一个目标变量Yi均可使用三种故障处理结果中的一种来表示,并设Y(hy)∈{Y(S),Y(P),Y(F)}代指三种故障处理结果中的任意一种。
基于以上设定,将各个集合写为矩阵形式:V,F=[f1,f2,…,fj,…,fn,fY],Y=[Y1,Y2,…,Yi,…,Ym]T。基于此,本发明构建了用于挖掘分析罕见变量的数据处理空间矩阵E
Figure BDA0002919620700000072
式中:从第二行开始的每一行都代表一次故障的记录,vij代表特征fj中的环境元素。
结合E和各条故障记录的编号,年度输入数据库Dy可以被写为
Figure BDA0002919620700000081
式中:ti代表第i行故障记录的编号。
重要度诊断标准的改进,常用的重要度诊断标准
对于输电线路系统中的故障记录,令I={v1,v2,v3,…}为包含其中所有输入环境元素的集合,D={t1,t2,…,tm}为含有m条故障记录的输入数据库。为构建一条关联规则,假设X为I的一个子集,Y为目标变量或目标变量集,若
Figure BDA0002919620700000082
Figure BDA0002919620700000083
则一条关联规则可以被写为
X→Y (2-3)
若这条关联规则被证实为可靠,则当X发生时,Y也将发生。
可靠关联规则主要有两种体现形式:第一种是高频变量集,即在输入数据库中出现频率超过所设置阈值的变量集X;第二种为频繁关联规则,即目标变量Y与X同时出现的概率满足所设置阈值的关联规则。通常高频变量集与频繁关联规则都由重要度诊断标准来计算相应重要度得分,并通过与所设置阈值进行比较来实现判别和筛选。目前最常用的两个重要度诊断标准为:
支持度(Support)表示在输入数据库D中,含有X的记录数量占总数的比例,主要用于筛选高频变量集。对于一条关联规则X→Y,X的支持度可以被写为
Figure BDA0002919620700000084
置信度(Confidence)表示在输入数据库D中,同时含有X和Y的记录数量在含有X的记录中所占比例,主要用于筛选频繁关联规则。一条关联规则X→Y的置信度可以被写为
Figure BDA0002919620700000085
由以上定义可以看出,对于一条关联规则,支持度和置信度的得分在不超过其上限的情况下越大越好。此外,还有一些着眼于其他方面的重要度诊断标准:
提升度(Lift)表示在X和Y相互独立的情况下,在多大程度上X和Y共同出现的频率大过预期。它主要用于筛选频繁关联规则。当一条关联规则的提升度等于1时,代表X和Y在D中的出现概率完全独立,也就是说没有任何相关性存在。而如果一条关联规则的提升度大于1时,其值越大则代表X和Y的相关性越大,越有利于后续的预测。一条关联规则X→Y的提升度可以被写为
Figure BDA0002919620700000086
信服度(Conviction)表示X出现与Y未出现这两种概率的乘积,和X出现且Y未出现的概率之间的比值。它主要用于筛选频繁关联规则。信服度和提升度较为相似,不同之处在于信服度分析了当Y未出现时的情况。这一点将有利于对关联规则逻辑方向的分析。一条关联规则X→Y的信服度可以被写为
Figure BDA0002919620700000091
杠杆度(Leverage)主要用来衡量当X和Y并非完全独立的期望下X和Y同时出现在D中的概率,与无此期望时X和Y同时出现在D中的概率的差值。它主要用于筛选频繁关联规则。与提升度相比,杠杆度将优先考虑在输入数据库中出现频率较高的条目。因此,当杠杆度为0时代表X和Y之间实际没有相关性存在,而杠杆度大于0的关联规则将被筛选出来。一条关联规则X→Y的杠杆度可以被写为
leve(X→Y)=supp(X→Y)-supp(X)supp(Y) (2-8)
基于以上五个重要度诊断标准,筛选工作主要分为以下两个步骤:
1.通过变量集的支持度进行挖掘,所有支持度得分不小于所设置阈值(minsupp)的变量集即作为高频变量集;
2.将所有含有任意高频变量集的关联规则运用置信度、提升度、信服度以及杠杆度中的一个或几个进行进一步筛查,以挑选出其中的频繁关联规则。所挑选出的频繁关联规则的相应置信度、提升度、信服度以及杠杆度得分均需要大于或等于相应重要度诊断标准所设定阈值(minconf,minlife,minconv,minleve)。
条件重要度诊断标准阈值设定方法的设计
将传统ARM算法应用于对输电线路系统故障进行预测时,所存在的一大问题就是未计及由于故障在不同时段的不均衡分布所带来的影响。例如雷击故障通常出现在夏季,而冬季相对较为罕见。若一个系统中雷击故障最为常见,则该系统在一年内所发生的故障将主要集中在夏季。然而,ARM算法在面对一年中的不同时段时仍采用相同且不变的重要度诊断标准阈值,即对于夏季所发生的故障和冬季所发生的故障都采用同样的阈值进行评估和分析。但考虑到在冬季甚至在春秋两个季节中故障的发生频率都将相对较低,使得相应环境状态的重要度得分较低,容易低于基于一整年故障的发生情况所设定的阈值,从而导致这些罕见时间序列极易被直接筛除。
尽管在罕见时段中故障的发生频率较低,但其中的故障同样可能造成输电线路系统运行的中断,从而导致严重的损失,故需要在分析时计及这些罕见时段。
为此,本发明设计了一种条件重要度诊断标准阈值的设定方法,能够针对性地根据年度输入数据库中的故障在不同时段中的分布来设定更加合理的阈值。例如,若在上面的例子中采用条件重要度诊断标准阈值设定方法,则能够为春夏秋冬分别依据各个季节中故障的分布情况设定不同的阈值,使得发生在冬季的故障同样能够得到充分分析。
本发明选择一个季度作为基准单位时段,在相同季度中所发生的故障将应用相同数值的条件重要度诊断标准阈值。设S={S1,S2,…,Si,…,Sm}为m个包含所有故障所在季度的集合,其中Si表示一次故障所在的季度,S(hS)∈{S(1),S(2),S(3),S(4)}表示四个季度中的任意一个。因此,式(2-2)中的年度输入数据库可被进一步扩展为
Figure BDA0002919620700000101
基于五种重要度诊断标准:支持度、置信度、提升度、信服度及杠杆度,本发明提出了五种对应的条件重要度诊断标准阈值设定方法,能够依据故障在各个季节中的分布情况分别设定更为合理的阈值。相应阈值设定方法的数学表达可被表示为
Figure BDA0002919620700000102
Figure BDA0002919620700000103
Figure BDA0002919620700000104
Figure BDA0002919620700000105
Figure BDA0002919620700000106
式中:i=2,3,…,(m+1)代表年度输入数据库Dy中的一行,|…|代表Dy中同时满足所包含全部条件的故障记录的基数,下标0代表在上一个年度周期中的重要度诊断标准阈值(若分析第一年中的数据时,则为初始预设阈值),S(hS)代表故障发生在春夏秋冬中的一个季度
Figure BDA0002919620700000107
代表该年度中故障发生频率最高的一个季度,Y(hY)代表三种故障处理结果中的一种(hy∈{S,P,F})。
对于涉及故障处理结果的重要度诊断标准:置信度、提升度、信服度及杠杆度,在设定它们的条件重要度诊断标准阈值时,将分别依据故障处理结果实施设定。例如,
Figure BDA0002919620700000108
Figure BDA0002919620700000109
均仅对应故障处理结果为“成功”的故障记录。
条件重要度诊断标准计算方法的设计
由于罕见故障原因或罕见环境元素相关的输电线路系统故障同样可能导致严重的损失,故应进一步从罕见变量中挖掘包含HILP故障原因与HILP环境元素在内的HILP变量。因此,本发明将一条关联规则X→Y进一步扩展为
Xg+Xr→Y (2-15)
式中:Xg和Xr分别代表常见变量集和罕见变量集。
目前,传统ARM模型在预测输电线路系统故障时所存在的另一大问题就是在挖掘的过程中将这些HILP变量直接筛除。这主要是因为ARM模型即使在面对不同环境特征中的罕见变量时,仍采用与相应特征中常见变量相同且固定的重要度诊断标准得分计算方法来计算重要度得分。由式(2-15)可知,传统重要度诊断标准得分计算方法主要受到来自数据库中占据多数的常见变量集Xg的影响,从而使得罕见变量集Xr难以被纳入到分析之中。例如依据某数据库中的故障记录,特征“地形”中的“山顶”为常见元素而“山坡”为罕见元素。若采用传统重要度诊断标准得分计算方法,含有元素“山坡”的故障记录所得到的重要度得分将难以达到阈值,从而容易被直接排除。
为此,本发明基于支持度、置信度、提升度、信服度及杠杆度这五种重要度诊断标准计算方法的原始形式即式(2-4)到式(2-8),提出了相应的条件形式得分计算方法。这五种条件重要度诊断标准得分计算方法能够依据不同环境特征中罕见变量的分布,通过不同的计算方法计算其重要度得分,从而能够同时从罕见变量集中进一步挖掘出HILP变量。因此在上例中,若采用条件重要度诊断标准得分计算方法计算含有元素“山坡”故障记录的重要度得分,将使得其得分更易于达到所设定阈值,从而能够对相应故障记录进行分析以验证元素“山坡”是否为HILP变量。当一条关联规则Xg+Xr→Y含有某一个环境特征fj中任意一个罕见环境元素时,针对该特征中罕见变量的条件重要度诊断标准得分计算方法能够被写为
Figure BDA0002919620700000111
Figure BDA0002919620700000112
Figure BDA0002919620700000113
Figure BDA0002919620700000114
Figure BDA0002919620700000115
Figure BDA0002919620700000121
式中:Y(hY)代表三种故障处理结果中的一种(hy∈{S,P,F}),Rg代表从2到(n+1)的数值区间。
与重要度诊断标准的阈值设定策略类似,当应用涉及到故障处理结果的重要度诊断标准即置信度、提升度、信服度及杠杆度时,需要分别依据故障处理结果实施计算。例如,liftj,s、convj,s、levej,s均仅对应故障处理结果为“成功”的故障记录。
输入数据相对权重的求解
考虑到不同环境元素与输电线路系统故障之间的关联程度不尽相同,因此需要求解每一个环境元素的相对权重,以衡量各个元素的重要程度。为分别分析常见变量集和罕见变量集,本发明首先构建了两个变量映射空间:
罕见元素空间
Figure BDA0002919620700000122
仅包含年度输入数据库Dy中带有某一个特征fj中任意罕见环境元素的故障记录
常见元素空间Sg:包含所有年度输入数据库Dy中的故障记录
若一个环境特征fj含有罕见环境元素,且一条故障记录X→Y中含有fj,则该环境特征fj的相对权重可以写为
Figure BDA0002919620700000123
对于环境特征fj中的任意一个元素ej,k,其相对权重可以被划分为两部分
Figure BDA0002919620700000124
式中:
Figure BDA0002919620700000125
代表常见变量集的影响权重,
Figure BDA0002919620700000126
代表罕见变量集的影响权重。
结合式(2-21)和式(2-22),
Figure BDA0002919620700000127
可以被进一步写为
Figure BDA0002919620700000128
可以看出,式(2-23)的前半部分和后半部分分别对应式(2-22)中的常见变量集和罕见变量集的影响权重。
关联规则挖掘FP-Growth算法
目前,ARM算法有了很多新的发展。如PrePost算法同样把输入条目数据转换为树状结构,从而减少了扫描时间成本;BitTableFI算法把输入条目数据转换为二进制向量,用逻辑运算与矩阵运算来代替数据扫描以加快运算速度。这些ARM新算法大多主要着眼于通过减少数据扫描或加快运算速度达到减少运行时间的目的。但考虑到本文主要面向长期的预测,换言之,可用于算法运行的时间较为充足;且由于目前电力运维检修部门的工作较为到位,我国的高压输电线路系统中所发生故障的数量相对有限,使得输入数据的容量相对较小,所以运行时间相对可控。因此,本文目前不以缩减算法运行时间作为首要目标,故选择FP-Growth算法这一较为成熟的算法作为ARM算法。若在未来需要解决其他问题时,可以依据具体要求重新选择ARM算法。
FP-Growth算法采用了一种新的前缀树结构来存储包含频繁关联规则在内的关键信息,是一种较为高效且可扩展的关联规则挖掘方法。相比Apriori算法,FP-Growth算法在挖掘过程中不会产生大量的候选变量集,因而运算速度获得了较大的提升。
简单来说,FP-Growth算法首先将输入数据通过重要度诊断标准阈值进行检验,并将所选出的高频变量集依据其重要度得分高低进行排序;接下来,根据排序结果依次将变量依照路径对应到FP-tree的节点上,直到将所有数据都加入到FP-tree上,完成FP-tree的构建;最后通过记录1-项高频集出现次数的变量表(Headtable)获取所对应的条件模式基,并递归挖掘出高频变量集,直到表格中的变量被处理完为止。FP-Growth算法的具体流程如图1所示。
ARMret预测模型的验证方法
预测模型性能的评价方法
为验证预测模型的性能,输电线路系统故障的预测结果将与这些故障的真实记录进行对比。混淆矩阵(Confusion Matrix,CM)能够区分模型的判断结果是否正确,因此常被用于模型性能评估。CM的表现形式如表2所示。
表22×2混淆矩阵
Figure BDA0002919620700000131
基于表2的结果能够推导出四种常用的评价变量:真阳率(True Positive Rate,TPR)、假阳率(False Positive Rate,FPR)、准确值(Positive Predictive Value,PPV)以及真阴率(False Negative Rate,FNR)。它们的数学表达可被表示为
Figure BDA0002919620700000132
Figure BDA0002919620700000133
Figure BDA0002919620700000134
Figure BDA0002919620700000141
基于这四个评价变量,本发明能够构建相应的预测模型性能评价方法。在预测的过程中,评价阈值T被用于判别一次预测结果为阳性还是阴性。如果预测对象Oi的得分比评价阈值T要高,则该预测结果将被认定为阳性,反之为阴性。因此,TPR和FPR也可以被写为
Figure BDA0002919620700000142
Figure BDA0002919620700000143
式中:
Figure BDA0002919620700000144
代表预测对象Oi在场景sj中被确认是真阳性的条件概率密度函数,
Figure BDA0002919620700000145
代表预测对象Oi在场景sj中被排除是真阳性的条件概率密度函数。
当评价阈值T在0至1之间变化时,TPR和FPR的数值将呈现出互为反比的变动趋势。接受者操作特性曲线(Receiver Operating Characteristic,ROC)能够精确地描述TPR和FPR数值的变动趋势。
应用ROC曲线下面积(Area Under the ROC,AUROC)作为评价方法,其数学表达形式如下
Figure BDA0002919620700000146
式中:T1和T2分别代表两个不同评价阈值,I(T1>T2)函数为指示函数,即T1>T2时函数值为1,反之为0。
对于一次完美的预测,其TPR数值为1而FPR数值为0,故所生成的ROC曲线必然经过坐标(0,1)。尽管在现实中并不存在完美的预测,但若预测模型所做预测的ROC曲线越接近左上角位置即AUROC的数值越大,则该预测模型的性能越好。
为计及ROC运算过程中的不确定度,本发明在分析AUROC的同时加入两个评价指标,标准误差(Standard Error,SE)和置信区间(Confidence Interval,CI),其中CI采用95%的置信区间。在本发明的后续算例分析中将综合AUROC、SE以及CI来衡量预测模型的性能。考虑到AUROC和SE为离散数值而CI为数值区间,故本发明选择平均置信区间(CI上下限的平均值)以及平均置信区间浮动(CI上下限变动数值的平均值)这两种形式来对不同预测模型的CI进行对比。
预测模型的验证流程
假设输入数据库包含总计z年的故障记录。故本发明采用z重交叉验证方法,在每一组测试中进行z轮预测和验证。首先将输入数据库按照年份总数划分为z部分,在每一轮预测和验证中,z部分数据中的z-1部分作为训练数据而剩下的1部分作为验证数据。这样能够保证输入数据库中的每一条故障记录都至少被验证一次,从而进一步减小由于潜在数据偏置而产生的影响。通过训练数据能够挖掘出相应的环境元素-故障规则,从而求解出测试数据中各条故障记录所在环境状况下的预测故障风险度。最后,通过对比预测故障风险度与测试数据中相应记录的真实故障处理结果,对ARMret模型的性能作出评价。
ARMret预测模型的实施流程
基于以上讨论和分析,本发明所设计的ARMret预测模型的具体步骤如下所示:
1.在输入数据库的训练数据集中,针对某一个环境特征fj所含有的全部环境元素,采用基于条件重要度诊断标准阈值设定方法(式(2-10)到(2-14))的重要度诊断标准计算方法挖掘出其中相应的罕见元素,余下的元素即为常见元素;
2.不含该特征中任何罕见元素的故障记录被归类于Sg
3.含有该特征中任意罕见元素的故障记录被归类于
Figure BDA0002919620700000151
中,并通过条件重要度诊断标准计算方法(式(2-16)到(2-20))挖掘基于这些罕见元素的HILP元素,以高频变量集和频繁关联规则的形式体现;
4.对于训练数据集中的每一个环境特征,依次重复进行第1-3步;
5.由式(2-23)求解各个元素的相对权重;
6.基于第5步所求各个元素的相对权重,依据测试数据集各条故障记录中所含环境元素计算相应记录的预测故障风险度,并归一化(0→1:不可能发生→一定发生);
7.将预测故障风险度与测试集中相应记录的真实故障处理结果相比较(0或1:故障处理结果发生或未发生),从而评估所提出预测模型的性能;
结合以上步骤,本发明所构建的ARMret算法预测流程如图2所示。
算例分析
算例数据描述
本发明采用位于中部某省的高压输电线路系统作为算例系统。该省输电线路截止2017年底共计6.62万公里,且该省具有地形复杂、气候多变的特点。因此该系统能够提供足够的故障样本。本发明基于2011至2016年发生在该系统中220kV及以上电压等级线路中的故障记录进行预测和验证。该系统区域在该时间段内的气象数据由中国气象部门提供,其中数据以通用协调时(UTC,Universal Time Coordinated)为基础每小时进行更新。
本发明所选取故障记录均含有28个环境特征,相应的气象数据包含26个气象特征。为增强本发明所提出的ARMret预测模型在不同应用场景中的实用性和灵活性,需要对原始数据中的特征进行筛选。图3为本发明设计的输入特征筛选条件。通过这五个筛选条件,一些适用性窄或者包含信息较少的特征被剔除。例如绝缘器材质一般仅与雷击故障相关,导线覆冰厚度一般需要专业检测仪器进行测量,杆塔编号的统计意义较差等。最终,本发明采用故障记录中的八个特征以及气象记录中的八个特征进行预测。
本发明所选用的输入数据库共包含15种故障原因,将全部纳入到分析之中。这些故障原因可以被分为两类:主要故障原因和次要故障原因。这两者的主要区别为:次要故障原因是指与主要故障原因同时出现的故障原因,但危害相对较小或与某特定主要原因绑定发生。一次故障可能由一种或两种故障原因所引起。因此,在输入数据库中的每一条故障记录中都同时标注主要故障原因及次要故障原因。当一次故障中的实际原因仅有一种时,该次故障记录中的次要故障原因将被标注为“无或不明(X)”。
本发明所选取的故障处理结果依据表1中的信息。
综合以上信息,本算例选取的输入环境特征以及所包含的元素如表3所示。
表3选取的环境特征及所含元素汇总
Figure BDA0002919620700000161
故障结果测试分析
依据预测对象的不同,本算例首先实施了故障结果预测。故障结果预测包含了所有类型故障的记录,将依据三种故障处理结果将故障记录分为三组,并分别进行预测和验证。
基于表3中的输入数据,通过基于条件重要度诊断标准阈值设定方法的传统重要度诊断标准计算方法从中挖掘出相应的罕见环境元素,其中初始阈值设为minsupp0=0.2、minconf0=0.6、minlift0=1.1、minconv0=1.1、minleve0=0.1。由于应用不同年份数据作为训练数据时的挖掘结果也会不同,故此处以前五年数据作为训练数据时所挖掘出的罕见环境元素为例,挖掘结果如表4所示。
表4基于前五年数据的罕见环境元素汇总
Figure BDA0002919620700000162
Figure BDA0002919620700000171
在故障原因测试中,根据三种故障处理结果(成功、合格和失败)进行了三组测试。在每一组测试中,所研究的故障处理结果为阳性而另外两种为阴性。例如,在第一组测试中所研究的故障处理结果为“成功”,则“成功”相关的记录将作为阳性样本而“合格”及“失败”相关的记录则成为阴性样本。基于ARMret预测模型的ROC曲线和基于ARM预测模型的ROC曲线对比如图4所示,具体预测效果的数据对比如表5所示。
表5故障结果测试预测效果数据
Figure BDA0002919620700000172
通过图4和表5可得,ARMret预测模型能够获得更好的预测效果。相比ARM预测模型,ARMret模型在AUROC、SE和CI上的得分分别改善了平均24.54%、40.24%和24.53%。在三种故障处理结果中,能够发现ARMret预测模型对其中“失败”故障的预测最为精确,而对其中“合格”故障的预测精确度相对较低。这主要是因为不同故障处理结果所造成的实际影响程度也不相同。其中,“失败”故障发生时通常将引起相对更大的损失,故往往存在事后人工介入进行处理。而相比“失败”故障,“合格”和“成功”故障都由自动应对措施成功处理,从而无需事后人工介入。考虑到事后人工介入一般能够提供更为详尽准确的故障记录,因此“失败”故障的预测准确性自然相对更高。此外,由于“合格”故障相对“成功”故障数量相对较少,导致“合格”故障记录的数据样本也相对有限,从而影响了预测的准确性。
故障原因测试分析
本算例实施的另一种类型的测试为故障原因测试。在故障原因测试中,所有由相同故障原因所导致的故障将被分批进行预测,故本算例共实施15组测试。不同于故障结果测试,在每组测试中,本算例均选择“成功”和“合格”同时作为阳性特征元素,而仅有“失败”作为阴性特征元素。基于ARMret预测模型和基于ARM预测模型的预测效果统计和对比如图5所示,其中横坐标轴上的各个字母为相应故障原因代指符号。
由图5可得,ARMret预测模型在所有15组故障原因测试中均取得了更好的预测效果。相较ARM预测模型,ARMret预测模型在AUROC、SE和CI的得分上分别取得了平均25.64%、72.79%和15.30%的提升。
在所有的15种故障原因中,可以发现针对由雷击(B)所导致故障的预测效果最好,针对由导线舞动(M)、树木(I)、外力(C)、山火(D)、大风(L)、违法施工(K)所导致故障的预测效果也居于前列。相反,针对由异物(J)、其他(N)所导致故障的预测准确度相对较低。这种差别由多个因素导致。一方面是数据容量的影响。在本算例所使用的输入数据中,由雷击(B)引发故障的记录数量较多,占比最大;而由异物(J)、其他(N)所导致故障的记录相对较少;另一方面,一些故障类型与外界环境相关性更强,也更有规律可循,如雷击(B)与夏季的风暴天气密切相关。然而对于其他(N)故障本就包含许多其他细分类型的故障,故具体相关的环境特征较少。而外来异物本身的随机性较大,且容易受到人为干扰,故由异物(J)所导致故障的相关规律也相对较少。为改善这一状况,首先应该寻求更多由异物(J)、其他(N)所导致故障的记录以充实输入数据;其次,应争取更为详尽或包含更多环境特征的相关类型故障记录。
总结:
在传统ARM预测模型中,包括罕见环境元素和故障罕见时段在内的罕见变量通常难以得到分析,进而影响故障预测的准确性。为此,本发明基于传统ARM模型构建了ARMret预测模型。首先,提出了五种条件重要度诊断标准阈值设定方法,能够根据故障在各个时段中的分布为不同时段分别设定更有针对性的阈值,从而可以在挖掘输入数据中的罕见变量时计及故障罕见时段的影响;然后,改进了五种传统重要度诊断标准得分计算方法,能够依据罕见环境元素在各个特征中的分布,提供与常见环境元素不同的得分计算方法,从而可以在从罕见变量中继续挖掘HILP变量时计及罕见环境元素的影响。最后,基于中部某省输电线路系统的实际算例结果表明:通过计及罕见变量,ARMret模型能够实现对预测效果的有效提升。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不局限于此。在不脱离本发明原理的前提下,还可对相关技术做出改进或替换,这些改进和替换也应视为本发明的保护范围。

Claims (3)

1.一种基于计及罕见变量的ARMret模型的故障预测方法,其特征在于,包括以下步骤:
步骤1:挖掘罕见元素和常见元素并归类;
在训练数据集中存储有多条关于电力故障的故障记录,针对某一个环境特征fj所含有的全部环境元素,采用基于条件重要度诊断标准阈值设定方法的重要度诊断标准计算方法挖掘出其中相应的罕见元素,余下的元素即为常见元素;
不含任何罕见元素的故障记录被归类于Sg
含有任意罕见元素的故障记录被归类于
Figure FDA0002919620690000011
步骤2:挖掘基于这些罕见元素的HILP元素,以高频变量集和频繁关联规则的形式体现;
HILP是指高风险低概率;
步骤3:对于训练数据集中的每一个环境特征,依次重复进行步骤1-2;
步骤4:由下式求解各个元素的相对权重;
Figure FDA0002919620690000012
Figure FDA0002919620690000013
为环境特征fj的相对权重;若一个环境特征fj含有罕见环境元素,且一条故障记录X→Y中含有fj,则该环境特征fj的相对权重写为
Figure FDA0002919620690000014
其中,ti为输入数据库中的第i条故障记录;D={t1,t2,…,tm}为含有m条故障记录的输入数据库;Dy∈D={D1,D2,…,Dz}代表输入数据库D中一年的数据,即在一年内发生的故障;D1,D2,…,Dz代表输入数据库D中第一年、第二年直至最后一年(Dz)的数据;
Xr:代表罕见变量集,包含特征中的所有罕见元素;
Figure FDA0002919620690000015
的计算公式中,
Figure FDA0002919620690000016
表示为同时满足位于年度输入数据库Dy中、所包括的fj中罕见变量集Xr存在这两个条件的故障记录条数;|ti∈Dy(i,1)|表示位于年度输入数据库Dy中所有故障记录的条数;
m是和|m|都代表故障记录;
关于ej,k:ej,k为I={v1,v2,…}中的任意一个变量;
|ti∈Sg|表示Sg数据集中的故障记录的条数;
Figure FDA0002919620690000017
表示相应故障记录ti里必须包括关联规则X→Y左侧条件变量集中的环境元素ej,k;Dy(i,j)∈fj表示环境元素ej,k必须为环境特征fj中的元素;
X表示关联规则集,ej,k为环境元素;
Figure FDA0002919620690000018
即为同时满足ti位于年度输入数据库Dy中以及所包括的fj中的罕见变量集Xr存在这两个条件的故障记录条数;
ti∈Dy(i,1)表示满足ti位于年度输入数据库Dy中,ti
Figure FDA0002919620690000019
集合中;fj为环境特征变量;
Figure FDA00029196206900000110
表示ti属于
Figure FDA00029196206900000111
集合中;
符号|…|代表同时满足所包含的全部条件的故障记录的条数;
步骤5:基于第:4步所求各个元素的相对权重,依据测试数据集各条故障记录中所含环境元素计算相应记录的预测故障风险度,并归一化,0表示不可能发生,1表示一定发生;
步骤6:将预测故障风险度与测试集中相应记录的真实故障处理结果相比较,从而评估所提出预测模型的性能。
2.根据权利要求1所述的基于计及罕见变量的ARMret模型的故障预测方法,其特征在于,
步骤1中,基于条件重要度诊断标准阈值设定方法的重要度诊断标准计算方法为:
支持度、置信度、提升度、信服度及杠杆度阈值设定方法的数学表达分别表示为
Figure FDA0002919620690000021
Figure FDA0002919620690000022
Figure FDA0002919620690000023
Figure FDA0002919620690000024
Figure FDA0002919620690000025
式中:
下标hs:表示四个季度中的任意一个,即S(hS)∈{S(1),S(2),S(3),S(4)};S(1),S(2),S(3),S(4)分别表示春、夏、秋、冬;
下标hy:代指三种故障处理结果(成功Success、勉强成功(或者说部分成功)Proper、失败Failure)中的任意一种,即Y(hy)∈{Y(S),Y(P),Y(F)};因此,对于涉及故障处理结果的重要度诊断标准:置信度、提升度、信服度及杠杆度,在设定它们的条件重要度诊断标准阈值时,将分别依据故障处理结果实施设定。
下标0:代表上一个年度周期中相应的重要度诊断标准阈值(若分析第一年中的数据时,则为初始预设阈(一般依据工程经验初设,再不断迭代优化))
变量ti:代表位于年度输入数据库Dy中第i行的故障记录;其中,i=2,3,…,(m+1)
符号|…|:代表年度输入数据库Dy中同时满足所包含的全部条件的故障记录的条数;
其中,ti∈Dy(i,1)表示相应故障记录ti必须位于年度输入数据库Dy中;Dy(i,n+3)=S(hs)表示相应故障记录ti必须发生于目前研究的季度hs中;Dy(i,n+2)=Y(hY)表示相应故障记录ti的处理结果必须为目前研究的hy中;
Figure FDA0002919620690000031
表示相应故障记录ti发生于该年度内故障发生频率最高的一个季度
Figure FDA0002919620690000032
中;
n为特征总数。
3.根据权利要求1所述的基于计及罕见变量的ARMret模型的故障预测方法,其特征在于,步骤2中,通过条件重要度诊断标准计算方法挖掘基于这些罕见元素的HILP元素;
Figure FDA0002919620690000033
Figure FDA0002919620690000034
Figure FDA0002919620690000035
Figure FDA0002919620690000036
Figure FDA0002919620690000037
式中
Y(hY):代表三种故障处理结果中的一种,hy∈{S,P,F}),Rg代表从2到(n+1)的数值区间。
下标j:表示当前公式仅适用于环境特征fj中罕见变量重要度的计算
下标hy:代指三种故障处理结果中的任意一种,即Y(hy)∈{Y(S),Y(P),Y(F)}。与重要度诊断标准的阈值设定策略类似,当涉及到故障处理结果的重要度诊断标准即置信度、提升度、信服度及杠杆度时,需要分别依据故障处理结果实施计算。例如,liftj,S、convj,S、levej,S均仅对应故障处理结果为“成功”的故障记录;
变量ti:代表位于年度输入数据库Dy中第i行的故障记录;其中,i=2,3,…,(m+1)
符号|…|:代表年度输入数据库Dy中同时满足所包含的全部条件的故障记录的条数;其中,ti∈Dy(i,1)表示相应故障记录i必须位于年度输入数据库Dy中;
Figure FDA0002919620690000041
表示相应故障记录ti中的常见变量集Xg不等于空集,其中,Rg代表从2到(n+1)的数值区间,用于确保常见变量集Xg所包含的常见元素由故障记录ti所记载;
Figure FDA0002919620690000042
表示相应故障记录ti所包括的fj中的罕见变量集Xr不等于空集,用于确保罕见变量集Xr所包含的常见元素必须对应于目前研究的特征fj且由故障记录ti所记载;
Dy(i,n+2)=Y(hY)表示相应故障记录i的处理结果必须为目前研究的hy中。
CN202110114407.7A 2021-01-27 2021-01-27 基于计及罕见变量的ARMret模型的故障预测方法 Withdrawn CN112801367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110114407.7A CN112801367A (zh) 2021-01-27 2021-01-27 基于计及罕见变量的ARMret模型的故障预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110114407.7A CN112801367A (zh) 2021-01-27 2021-01-27 基于计及罕见变量的ARMret模型的故障预测方法

Publications (1)

Publication Number Publication Date
CN112801367A true CN112801367A (zh) 2021-05-14

Family

ID=75812285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110114407.7A Withdrawn CN112801367A (zh) 2021-01-27 2021-01-27 基于计及罕见变量的ARMret模型的故障预测方法

Country Status (1)

Country Link
CN (1) CN112801367A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672859A (zh) * 2021-08-17 2021-11-19 郑州铁路职业技术学院 一种道岔转辙机故障声学诊断系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672859A (zh) * 2021-08-17 2021-11-19 郑州铁路职业技术学院 一种道岔转辙机故障声学诊断系统
CN113672859B (zh) * 2021-08-17 2024-03-29 郑州铁路职业技术学院 一种道岔转辙机故障声学诊断系统

Similar Documents

Publication Publication Date Title
CN110348615B (zh) 基于蚁群优化支持向量机的电缆线路故障概率预测方法
CN105930723A (zh) 一种基于特征选择的入侵检测方法
CN112687349A (zh) 一种降低辛烷值损失模型的构建方法
CN113792754B (zh) 一种先除异后修复的换流变dga在线监测数据处理方法
CN108133225A (zh) 一种基于支持向量机的覆冰闪络故障预警方法
CN108550077A (zh) 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
CN113112067A (zh) 一种tfri权重计算模型的建立方法
CN111967535A (zh) 一种储粮管理场景温度传感器故障诊断方法及其诊断装置
CN115033591B (zh) 一种电费数据异常智能检测方法、系统、存储介质及计算机设备
CN111507504A (zh) 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法
US20050144537A1 (en) Method to use a receiver operator characteristics curve for model comparison in machine condition monitoring
CN116737510B (zh) 一种基于数据分析的键盘智能监测方法及系统
CN110766313A (zh) 一种基于运维检修制度的电缆隧道综合状态评价方法
CN115277354A (zh) 一种面向指挥控制网络管理系统的故障检测方法
CN113486291A (zh) 一种基于深度学习的石油钻机微电网故障预测方法
CN112801367A (zh) 基于计及罕见变量的ARMret模型的故障预测方法
CN116992362A (zh) 一种基于夏普利值的变压器故障表征特征量筛选方法和装置
CN116151799A (zh) 一种基于bp神经网络的配电线路多工况故障率快速评估方法
CN115577312A (zh) 基于改进dagmm的建筑用电负荷曲线异常检测方法
CN111382147A (zh) 一种气象数据缺失插补方法和系统
CN111026661A (zh) 一种软件易用性全面测试方法及系统
CN115080921B (zh) 一种基于审计敏感的改进的Top-k Dominating方法
CN117743986A (zh) 一种基于多模型融合的避雷器缺陷预测方法及系统
CN116628583A (zh) 一种改进型svm的道岔故障诊断方法
Frenkiel Deep Learning Precipitation Nowcasting for the Netherlands

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210514