CN113112067A

CN113112067A - 一种tfri权重计算模型的建立方法

Info

Publication number: CN113112067A
Application number: CN202110391118.1A
Authority: CN
Inventors: 孙辰昊; 曾祥君; 李泽文; 王文; 王媛媛; 张永熙
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-13

Abstract

本发明公开了一种TFRI权重计算模型的建立方法，基于ARMret预测模型，建立TFRI权重计算模型,TFRI是指双重风险指数，采用TFRI权重计算模型，ARMret预测模型能够有效处理数据容量有限或特征记录相对模糊的情况。

Description

一种TFRI权重计算模型的建立方法

技术领域

本发明涉及一种基于计及罕见变量的关联规则挖掘故障分布预测模型(Association Rule Mining with Rare Elements and Time series,ARMret)以及TFRI(双重风险指数)权重计算模型。

背景技术

在所研究的各个输电线路系统外部环境特征与输电线路系统故障发生时段中，往往存在一些出现频率较低的环境元素以及一些故障发生较少的时段。但当面对环境特征中的不同环境元素以及不同时段时，传统ARM算法仍然采用相同且固定的重要度诊断标准得分计算方法及阈值设定方法，将导致包括罕见环境元素和罕见故障时段在内的罕见变量未经任何分析而被直接舍弃。考虑到这些罕见变量与真实故障之间同样存在关联性，因此对这些罕见变量进行挖掘和分析可以有效改善故障预测的准确性。

因此，有必要设计一种基于计及罕见变量的故障预测方法以及一种新的权重计算模型。

发明内容

本发明所要解决的技术问题是提供一种TFRI权重计算模型的建立方法，该TFRI权重计算模型具有预测准确性高的特点。

发明的技术解决方案如下：

先介绍ARMret模型:

一种基于计及罕见变量的ARMret模型的故障预测方法包括以下步骤：

步骤1：挖掘罕见元素和常见元素并归类；

在训练数据集中存储有多条关于电力故障的故障记录，针对某一个环境特征f_j所含有的全部环境元素，采用基于条件重要度诊断标准阈值设定方法的重要度诊断标准计算方法挖掘出其中相应的罕见元素，余下的元素即为常见元素；

不含任何罕见元素的故障记录被归类于S^g；

含有任意罕见元素的故障记录被归类于

S^g：变量映射空间，包含所有数据库中的故障记录；

变量映射空间，仅包含数据库中带有某一个特征f_j中任意罕见环境元素的故障记录；

步骤2：挖掘基于这些罕见元素的HILP元素，以高频变量集和频繁关联规则的形式体现；

HILP是指高风险低概率；

步骤3：对于训练数据集中的每一个环境特征，依次重复进行步骤1-2；

步骤4：由下式求解各个元素的相对权重；

为环境特征f_j的相对权重；若一个环境特征f_j含有罕见环境元素，且一条故障记录X→Y中含有f_j，则该环境特征f_j的相对权重写为

其中，t_i为输入数据库中的第i条故障记录；D＝{t₁，t₂，…，t_m}为含有m条故障记录的输入数据库；D_y∈D＝{D₁,D₂,…,D_z}代表输入数据库D中一年的数据，即在一年内发生的故障(各条故障记录)；D₁,D₂,…,D_z代表输入数据库D中第一年、第二年直至最后一年(D_z)的数据；

X^r：代表罕见变量集，包含特征中的所有罕见元素；

由于年度这一时间单位具有周期重复性，故本申请将输入数据按年度划分并分别进行挖掘，以便验证预测的效果

年度输入数据库D_y可以被写为：

式中：

第一个变量D_y：D_y∈D＝{D₁,D₂,…,D_z}代表输入数据库D中一年的数据，即在一年内所有发生故障的记录，D₁,D₂,…,D_z代表输入数据库D中第一年、第二年直至最后一年(D_z)的数据。

第二个变量t_i：t_i代表任意一个(位置为第i行)故障记录的编号。其中假设总计收录了m条故障记录，因此，i＝1,2,…,m。

第三个变量f_j：F＝{f₁,f₂,…,f_j,…,f_n,f_Y}为一个包含所有环境特征的集合，f_j为环境特征变量(如天气)，f_Y为相应的目标特征变量(目标变量，此处为故障是否处理成功)。

第四个变量v_ij：每一个环境特征f_j都由一组环境元素e_j,1,e_j,2,…,e_j,k,…,e_j,l组成(特征“天气”包含元素：“晴天”、“阴天”、“多云”。。。)，其中第一个下标表示元素对应第j个特征f_j，其中第二个下标k＝1,2,…,l表示总计l个元素中的任意一个。选定环境元素作为输入变量。设I＝{v₁，v₂,…}为一个包含所有输入变量的集合，则e_j,k等同I中的任意一个变量v_ij(假设出现在第i行的故障记录中，对应第j个特征f_j)。

第五个变量Y_i：设{Y₁,Y₂,…,Y_i,…,Y_m}为所有的目标变量，具体为故障的实际处理结果。在处理故障时，共考虑两种故障处理措施：自动重合闸和强送电。因此，故障处理结果的设定如下：当故障发生时，若自动重合闸成功，则称为“成功”；若自动重合闸失败或未动作而强送电成功或未启用，则称为“勉强成功”；其他，则统称为“失败”。因此，出现在第i行的故障记录中目标变量Y_i可采用三种故障处理结果中的一种(成功、勉强成功、失败)来表示，并设Y(h_y)∈{Y(S),Y(P),Y(F)}代指三种故障处理结果(success、proper、failure)中的任意一种。

的计算公式中，

表示为同时满足位于年度输入数据库D_y中、所包括的f_j中罕见变量集X^r存在这两个条件的故障记录条数；|t_i∈D_y(i,1)|表示位于年度输入数据库D_y中所有故障记录的条数。

m是和|m|都代表故障记录；

关于e_j,k：e_j,k为I＝{v₁,v₂,…}中的任意一个变量，举例，如I为天气，则v1，v2等分别为“晴天”、“阴天”、“多云”。。。，相关解释如下：在D_y中，设F＝{f₁,f₂,…,f_j,…,f_n,f_Y}为一个包含所有环境特征的集合，f_j为环境特征变量(如天气)，f_Y为相应的目标特征变量(目标变量，此处为故障是否处理成功)；每一个环境特征f_j都由一组环境元素e_j,1,e_j,2,…,e_j,k,…,e_j,l组成(特征“天气”包含元素：“晴天”、“阴天”、“多云”。。。)。在本文中，选定环境元素作为输入变量。设I＝{v₁,v₂,…}为一个包含所有输入变量的集合，则e_j,k等同I中的任意一个变量。

|t_i∈S^g|表示S^g数据集中的故障记录的条数；

表示相应故障记录t_i里必须包括关联规则X→Y左侧条件变量集中的环境元素e_j,k；D_y(i,j)∈f_j表示环境元素e_j,k必须为环境特征f_j中的元素；

X表示关联规则集，e_j,k为环境元素。目标集合Y，X→Y表示关联规则到目标集合的映射。

即为同时满足t_i位于年度输入数据库D_y中以及所包括的f_j中的罕见变量集X^r存在这两个条件的故障记录条数；

t_i∈D_y(i,1)表示满足ti位于年度输入数据库D_y中，t_i为

集合中；f_j为环境特征变量；

表示t_i属于

集合中；

符号|…|代表同时满足所包含的全部条件的故障记录的条数；

步骤5：基于第:4步所求各个元素的相对权重，依据测试数据集各条故障记录中所含环境元素计算相应记录的预测故障风险度，并归一化，0表示不可能发生，1表示一定发生；

步骤6：将预测故障风险度与测试集中相应记录的真实故障处理结果相比较，从而评估所提出预测模型的性能。

步骤1中，基于条件重要度诊断标准阈值设定方法的重要度诊断标准计算方法为：

支持度、置信度、提升度、信服度及杠杆度阈值设定方法的数学表达分别表示为

式中：

下标h_S：表示四个季度中的任意一个，即S(h_S)∈{S(1),S(2),S(3)，S(4)}；S(1),S(2),S(3),S(4)分别表示春、夏、秋、冬；

下标h_y：代指三种故障处理结果(成功Success、勉强成功(或者说部分成功)Proper、失败Failure)中的任意一种，即Y(h_y)∈{Y(S),Y(P),Y(F)}；因此，对于涉及故障处理结果的重要度诊断标准：置信度、提升度、信服度及杠杆度，在设定它们的条件重要度诊断标准阈值时，将分别依据故障处理结果实施设定。例如，

均仅对应故障处理结果为“成功”的故障记录。

下标0：代表上一个年度周期中相应的重要度诊断标准阈值(若分析第一年中的数据时，则为初始预设阈(一般考经验设置，先初设，再不断迭代优化，默认值可以取0.2))

变量t_i：代表位于年度输入数据库D_y中第i行的故障记录。其中，i＝2,3,…,(m+1)

符号|…|：代表年度输入数据库D_y中同时满足所包含的全部条件的故障记录的条数；

其中，t_i∈D_y(i,1)表示相应故障记录t_i必须位于年度输入数据库D_y中；D_y(i,n+3)＝S(h_S)表示相应故障记录t_i必须发生于目前研究的季度h_S中；D_y(i,n+2)＝Y(h_Y)表示相应故障记录t_i的处理结果必须为目前研究的h_y中；

表示相应故障记录t_i发生于该年度内故障发生频率最高的一个季度

中；因此，以支持度阈值设定方法

为例来说，|t_i∈D_y(i,1)；D_y(i,n+3)＝S(h_S)|即为同时满足位于年度输入数据库D_y中且发生于目前研究的季度h_S中的所有故障记录的条数；

即为同时满足位于年度输入数据库D_y中且所在的季度为该年度内故障发生频率最高的季度

的所有故障记录的条数。

n为特征总数。参见前文矩阵D，总共有n+3列，即相当于从0到n+2；n+3表示第n+3列。

步骤2中，通过条件重要度诊断标准计算方法挖掘基于这些罕见元素的HILP元素；

式中：Y(h_Y)代表三种故障处理结果中的一种，h_y∈{S，P，F})，R_g代表从2到(n+1)的数值区间。

式中：

下标j：表示当前公式仅适用于环境特征f_j中罕见变量重要度的计算

下标h_y：代指三种故障处理结果(Success、Proper、Failure)中的任意一种，即Y(h_y)∈{Y(S),Y(P),Y(F)}。与重要度诊断标准的阈值设定策略类似，当涉及到故障处理结果的重要度诊断标准即置信度、提升度、信服度及杠杆度时，需要分别依据故障处理结果实施计算。例如，lift_j，S、conv_j,s、leve_j,S均仅对应故障处理结果为“成功”的故障记录。

变量t_i：代表位于年度输入数据库D_y中第i行的故障记录；其中，i＝2，3，…，(m+1)

符号|…|：代表年度输入数据库D_y中同时满足所包含的全部条件的故障记录的条数；其中，t_i∈D_y(i,1)表示相应故障记录i必须位于年度输入数据库D_y中；

表示相应故障记录t_i中的常见变量集X^g不等于空集，其中，R_g代表从2到(n+1)的数值区间，用于确保常见变量集X^g所包含的常见元素由故障记录t_i所记载；

表示相应故障记录t_i所包括的f_j中的罕见变量集X^r不等于空集，用于确保罕见变量集X^r所包含的常见元素必须对应于目前研究的特征f_j且由故障记录t_i所记载；

D_y(i，n+2)＝Y(h_Y)表示相应故障记录i的处理结果必须为目前研究的h_y中。因此以条件支持度计算方法supp_j为例来说，

即为同时满足位于年度输入数据库D_y中、所包含常见变量集X^g存在以及所包括的f_j中的罕见变量集X^r存在这三个条件的故障记录条数；

即为同时满足位于年度输入数据库D_y中以及所包括的f_j中的罕见变量集X^r存在这两个条件的故障记录条数。

一种TFRI权重计算模型的建立方法，基于ARMret预测模型，建立TFRI权重计算模型,TFRI是指双重风险指数。

所述的TFRI权重计算模型由下式表征：

式中：ω_E和ω_T分别为

和

的权重，均取值为“1”，

为TFRI值，

即为TFRI变量符号，TFRI：结合ERI和TRI模型构建了双重风险指数(Two-Fold Risk Index,TFRI)计算模型；

TFRI权重计算模型涉及年度输入数据库；对年度输入数据库的定义如下：

由于年度这一时间单位具有周期重复性，故将输入数据按年度划分并分别进行挖掘，以便验证预测的效果；

年度输入数据库D_y为：

式中：

第二个变量t_i：t_i代表任意一个(位置为第i行)故障记录的编号。其中假设总计收录了m条故障记录，因此，i＝1,2，…,m。

第四个变量v_ij：每一个环境特征f_j都由一组环境元素e_j,1,e_j,2,…,e_j,k,…,e_j,l组成(特征“天气”包含元素：“晴天”、“阴天”、“多云”。。。)，其中第一个下标表示元素对应第j个特征f_j，其中第二个下标k＝1,2,…,l表示总计l个元素中的任意一个。选定环境元素作为输入变量。设I＝{v₁,v₂,…}为一个包含所有输入变量的集合，则e_j,k等同输入变量集合I中的任意一个变量v_ij(假设出现在第i行的故障记录中，对应第j个特征f_j)；

第五个变量Y_i：设{Y₁,Y₂,…,Y_i,…,Y_m}为所有的目标变量，具体为故障的实际处理结果。在处理故障时，共考虑两种故障处理措施：自动重合闸和强送电。因此，故障处理结果的设定如下：当故障发生时，若自动重合闸成功，则称为“成功”；若自动重合闸失败或未动作而强送电成功或未启用，则称为“勉强成功”；其他，则统称为“失败”。因此，出现在第i行的故障记录中目标变量Y_i可采用三种故障处理结果中的一种(成功、勉强成功、失败)来表示，并设Y(h_y)∈{Y(S)，Y(P)，Y(F)}代指三种故障处理结果(success、proper、failure)中的任意一种。

第六个变量d＝{d₁,d₂,…,d_i,…,d_m}：表示包含所有故障所导致电力中断持续时间的集合

第七个变量S＝{S₁,S₂,…,S_i,…,S_m}：表示包含所有故障所在季度的集合，其中S_i表示一次故障所在的季度，S(h_S)∈{S(1),S(2),S(3),S(4)}表示四个季度中的任意一个。

第八个变量A＝{A₁,A₂,…,A_i,…,A_m}：表示所包含研究地区所有子区域的集合，其中A_i表示一次故障所在的子区域，A(h_a)∈{A(1),A(2),A(3),…}表示所研究地区中的任意一个子区域。

第九个变量L＝{L₁,L₂,…,L_i,…,L_m}：表示包含所有故障所在故障日稳定性评估等级的集合，其中L_i表示一次故障所在故障日的稳定性评估等级，L(h_l)∈{L(M),L(S),L(B)}表示三种等级(MED，SED，BED)中的一个等级。[主要故障日(Major Event Day,MED)、严重故障日(Severe Event Day,SED)和一般故障日(Basic Event Day,BED)。]。

为任意一个特征f_j中的单个元素e_j,k∈f_j的ERI(环境风险指数)，由两部分组成：

式中：

表示来自常见元素的风险；

表示来自罕见元素的风险；

其中，

的表达式为

式中：

采用年度输入数据库矩阵D_y作为ERI的数据求解空间；

为分别对常见变量集和罕见变量集进行分析，设D_y的子矩阵为罕见变量集子矩阵

D_y中包含特征f_j中任意罕见环境元素的故障记录；

分别表示此外，基于单个特征f_j所包含元素的集合构建了两个子集合：

常见元素子集合

包含所有特征f_j中的常见元素；

罕见元素子集合

包含所有特征f_j中的罕见元素；

上半部分中的0表示

不考虑来自罕见元素的风险；

下半部分中：

|…|：代表年度输入数据库D_y中同时满足所包含的全部条件的故障记录的条数

t_i∈D_y：表示相应故障记录t_i必须位于该年度输入数据库D_y中

|m|：表示年度输入数据库D_y中所有记录的条数，有|m|＝m；

D_y(i,j)＝e_j,k表示故障记录t_i里目标特征中的相应环境元素必须为e_j,k；

i＝2,3,…,(m+1)代表年度输入数据库D_y中的一条故障记录；

j＝2,3,…,(n+1)代表目标环境特征f_j；n为环境特征数量。

关于

由系统风险结构理论可知，系统整体风险取决于系统中各个组成部件的相对位置与组成结构。最基本的系统结构有串联和并联两种。其中，对于串联结构的系统，系统中任意部件的故障将导致整个系统的故障。当所有组成部件都相互独立时，由以下公式计算系统的整体故障风险:

式中：R_i为部件i的故障风险，R_s为系统整体故障风险。

为求解系统整体故障风险，需要对系统中所有环境特征之间的逻辑关系进行分析以确定系统的风险结构。在一条真实故障记录中，考虑到该故障的发生需要所有环境特征中的相应元素全部出现，也就是说即使任意一个特征中的相应元素没有出现，就不再与该记录中的环境状态完全一致，该故障将可能不再发生。结合串联结构系统的特性可知，各个环境特征之间为串联关系。假设所有环境特征都相互独立，则系统整体故障风险可由所有特征中相应元素的风险的乘积来求解。综上所述，系统整体故障风险可由当各个特征中相应元素出现时系统中出现故障的综合似然度的乘积来求解，其数学表达为

式中：

1-h(p(t_i))：表示系统整体故障风险；

h(1_k,p(t_i))表示当元素e_j，k确定未出现时，由于故障t_i出现而对系统稳定性产生的影响；

n+1：表示年度输入数据库D_y中所存在的全部特征总数

表示相应故障记录t_i必须属于该年度输入数据库D_y中的罕见变量集子矩阵

t_i∈D_y(i，1)：表示相应故障记录i必须位于年度输入数据库D_y中

D_y(i,j)＝e_j,k：表示故障记录t_i里目标特征中的相应环境元素必须为e_j,k；

表示故障记录t_i里目标特征中的相应环境元素属于罕见元素子集合中；

D_y(i,j)∈f_j：表示故障记录t_i里目标特征中的相应环境元素属于目标特征f_j；

i＝2,3,…,(m+1)代表年度输入数据库D_y中的一条故障记录，

j＝2,3,…,(n+1)代表目标环境特征f_j；

|…|：代表年度输入数据库D_y中同时满足所包含的全部条件的故障记录的条数，例如，

即为同时满足位于年度输入数据库D_y中、目标特征中的相应环境元素为e_j,k，且相应环境元素属于罕见元素子集合中这三个条件的故障记录条数

部件关键度分析(Component Importance Measure,CIM)可用于衡量系统中各个组成部件对所在系统整体风险增减趋势和幅度的影响程度。因此，CIM同样能够用于挖掘对系统故障发生影响较大的环境元素。基于两种相互配套的CIM计算模型：风险增长度(RiskAchievement Worth,RAW)和风险减少度(Risk Reduction Worth,RRW)的设定，将组成部件重新定义为环境元素e_j,k，将相应的部件风险定义为当输电线路系统故障发生时元素e_j,k同时出现的概率，将系统整体故障风险定义为该系统中有故障发生的综合似然度。基于RAW和RRW求解环境风险指数(Environmental Risk Index,ERI)

将RAW重新定义为当环境元素e_j，k出现即必然产生影响时，相对应的故障t_i导致系统整体风险的相对上升程度，相应的数学表达为

式中：

1-h(0_k，p(t_i))表示当元素e_j，k确定出现时，故障t_i出现在系统中的风险。其中，h()表示特定状态下的系统稳定性，0_k表示元素e_j，k对系统稳定性产生了影响，p(t_i)表示故障t_i出现在系统中的概率。

1-h(p(t_i))表示故障t_i出现在系统中的风险。

同样地，重新定义RRW为当元素e_j，k未出现即未产生任何影响时，系统整体风险的相对下降程度，相应的数学表达为

式中：

1-h(1_k，p(t_i))表示当元素e_j,k确定未出现时，故障t_i出现在系统中的风险；

其中，1_k表示元素e_j,k未对系统稳定性产生影响。

1-h(p(t_i))表示故障t_i出现在系统中的风险。

结合RAW和RRW综合衡量来自罕见元素的风险指数，

(即

)的表达式为

式中：ω₁和ω₂为RAW和RRW的影响权重，可根据实际需求确定，本发明中，w1＝w2＝0.5，e_j,k为某一条记录；

R_RAW、R_RRW分别表示来自RAW和RRW的故障风险，数学表达分别为

式中：

n+1：表示年度输入数据库D_y中所存在的全部特征总数；

j＝2,3,…,(n+1)代表总计n+1个特征中的目标环境特征f_j；

k＝1,2,…,l表示总计l个元素中的任意一个；

l：表示特征f_j中的全部元素总数；

D_y(i,j)≠e_j,k：表示故障记录t_i里目标特征中的相应环境元素必须不是e_j,k。

关于故障日的风险分级(MED、SED、BED)

依据对系统稳定性所产生的影响程度对故障所在时段进行分级评估。选择一天作为研究电力中断的单位时段，故所有一天内出现至少一次故障的日期将被定义为故障日。基于此，年度输入数据库D_y中所有的故障日将被划分为主要故障日(Major Event Day,MED)、严重故障日(Severe Event Day,SED)和一般故障日(Basic Event Day,BED)。

考虑到系统平均电力中断持续时间参数(System Average InterruptionDuration Index,SAIDI)不会被所研究输电线路系统的规模大小影响且能够有效衡量系统的稳定性，故将SAIDI参数作为电力供应能力的评价指标

SAIDI的计算思路为所有用户所发生的电力中断乘以相应持续时间，再除以用户的总户数，相应计算公式如下

SAIDI＝∑(r_i·N_i)/N_t (3-14)

式中：r_i为电力中断持续时间，N_i为受到影响的总户数，N_t为总调查用户数。

针对MED和SED共设置两个稳定性评估阈值T_MED和T_SED。则MED和SED分别为基于单日SAIDI得分超过所设置阈值的故障日，剩余的故障日则为BED。

两个稳定性评估阈值T_MED和T_SED的计算公式为

T_θ＝e^α+kβ；

式中：

θ＝MED,SED

α为年度输入数据库中所有日期的单日SAIDI得分的自然对数值的均值；

β为年度输入数据库中所有日期的单日SAIDI得分的自然对数值的标准差；

k为用于减少不同研究周期之间统计变化幅度的系数，取k＝2.5作为T_MED的系数，取k＝2.0作为T_SED的系数。

由于MED对输电线路系统的稳定性具有较大的影响，因此应该将MED提取出来并进行专门的分析。此外，为提升自动应对措施的防范效果，需要尽可能避免数据波动过大的情况，故将与普遍情况相差较大的故障日分离出来。因此，所有的MED不被加入到TRI的计算中，仅保留SED和BED。

(2)关于

为针对年度输入数据库中任意一个季度的TRI值，计算公式为

式中：

表示基于目标季节以及目标故障所在子区域的风险求解TRI；

h_s代表故障发生在春夏秋冬中的一个季度(h_s∈{1,2，3，4})，A(h_a)∈{A(1),A(2),A(3),…}表示所研究地区中的任意一个子区域。

D_y(i，n+5)＝A(h_a)：表示故障t_i必须发生于当前所研究的子区域，A(h_a)∈{A(1),A(2),A(3),…}表示所研究地区中的任意一个子区域；

D_y(i,n+4)＝S(h_S)：表示故障t_i必须发生于当前所研究的季节，S(h_S)∈{S(1),S(2),S(3),S(4)}表示四个季度中的任意一个；

D_y(i,n+6)＝L(S)/L(B):表示故障t_i所在故障日的稳定性评估等级，L(h_l)∈{L(M),L(S),L(B)}分别表示三种等级(MED，SED，BED)；

公式中+5，+4，+6等表示Dy中相应的列数，即对应的特征，n是环境特征总数，未定。如n+5代表故障所在子区域，即在最右边那个环境特征的再右边五列。

λ：表示SED相较BED在单位损失数目上的倍数；根据电力安全事故应急处置和调查处理条例所规定的基于不同事故等级所造成损失的数据，估算SED中的故障单位损失数目u(C_p,q)为BED的四倍；因此，采用BED中的故障单位损失数目为基准，若设为“1”，则λ＝4；

|…|：代表年度输入数据库D_y中同时满足所包含的全部条件的故障记录的条数，例如，|t_i∈D_y(i,1)；D_y(i,n+4)＝S(h_S)；D_y(i,n+6)＝L(S)|即为同时满足位于年度输入数据库D_y中、发生于当前所研究的季节，且所在故障日的稳定性评估等级为严重故障日(SED)这三个条件的故障记录条数。

有益效果：

本发明设计了计及罕见变量的关联规则挖掘(Association Rule Mining withRare Elements and Time series，ARMret)预测模型，能够在识别与故障间存在强关联的因素的过程中(定性分析阶段)计及并分析输入数据中的罕见变量，从而提升模型的预测性能。

1首先，对输入数据进行了预处理，将所有数据整合到统一的处理空间中。

2然后，依据故障在各个时段中的分布提出了五种新的重要度诊断标准阈值设定方法，能够分别为各个时段更有针对性地设定不同的阈值，从而可以在从输入数据中挖掘罕见变量时计及故障罕见时段的影响。

3接下来，依据各个环境特征中罕见环境元素的分布对五种重要度诊断标准得分计算方法的传统形式进行了改进，能够为罕见环境元素设计与常见环境元素不同的得分计算方法，从而在从罕见变量中继续对高风险低概率(High Impact Low Probability,HILP)变量进行挖掘时计及罕见环境元素的影响。

4此外，还构建了两个变量映射空间以分别对常见变量和罕见变量与故障之间的相关程度进行分析，从而在计算输入数据相对权重时能够更加准确地衡量罕见变量的影响。

通过基于实际输电系统的实际算例结果可以得出：相比传统ARM预测模型，所提出的ARMret模型一方面通过计及输入数据中的罕见变量，能够改善模型的预测效果；另一方面也可以尽可能涵盖所有可能出现的故障类型以及环境状态，以加强ARMret模型在罕见或极端情况下的应对能力。

采用TFRI权重计算模型，能够在量化强相关因素与故障间的具体关联程度的过程中(定量分析阶段)从两个不同维度综合评估各因素的相对权重，权重衡量结果更加深入准确可行，是对ARMret模型的进一步优化和完善。

1一方面，提出直接依据特征元素故障风险的特征元素相对权重衡量模型。

第一，根据系统风险结构理论，通过可靠性框图方法搭建系统整体风险结构，以描述系统整体故障风险的概率分布；

第二，重构部件关键度分析定义，构建RAW、RRW模型，分别衡量当目标特征元素出现即必然产生影响时系统整体风险的相对上升程度、当目标特征元素未出现即未产生影响时系统整体风险的相对下降程度，并分别匹配各自最优模型权重以综合衡量目标特征元素风险指数；

第三，为目标特征设立变量映射子集合：常见和罕见特征元素子集合，区别衡量常见和罕见特征元素对整体故障风险的影响程度；

第四，构建特征风险指数衡量模型，描绘特征元素对系统整体故障风险变化趋势及幅度的影响程度分布函数。

2另一方面，设计针对不同时段故障风险分布对特征元素权重产生影响的衡量模型。

第一，基于电力系统稳定性分析理论，依据SAIDI参数构建系统稳定性评估模型，量化故障风险；

第二，选择天为故障影响衡量指标时段，根据故障对系统稳定性造成的危害程度，通过β方法，组建稳定性评估阈值，针对全部指标时段实施故障风险分级；

第三，进一步拓展数据变量挖掘分析空间，并以随机过程风险分布原理为基础，建立时序风险指数衡量模型。

基于真实输电系统的实际算例结果显示：通过优化输入数据相对权重的计算方法，TFRI权重衡量模型能够进一步推动ARMret预测模型性能的提升和效果的改善。

附图说明

图1为FP-Growth算法流程图；

图2为ARMret模型流程图；

图3为输入特征筛选流程图；

图4为故障结果测试预测效果对比示意图；其中图4(a)、图4(b)和图4(c)分别为成功(success)、合格(proper)和失败(failure)预测效果对比图；

图5为故障原因测试预测效果对比示意图。其中图5(a)、图5(b)分别对应接受者操作特性曲线下面积(AUROC)、标准误差(SE)的示意图；

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

ARMret预测模型的构建

输入数据的预处理

考虑到输电线路系统外部环境涉及多种不同的环境特征，为完成对输入环境特征的挖掘，需要对原始输入数据进行整合，并汇总到统一的数据处理空间中。

由于年度这一时间单位具有周期重复性，故本发明将输入数据按年度划分并分别进行挖掘，以便验证预测的效果。因此在本发明中，设D_y∈D＝{D₁,D₂,…,D_z}代表输入数据库D中一年的数据，即在一年内发生的故障。

在D_y中，设F＝{f₁,f₂,…,f_j,…,f_n,f_Y}为一个包含所有环境特征的集合，f_j为环境特征变量，f_Y为相应的目标特征变量。每一个环境特征f_j都由一组环境元素e_j,1,e_j,2,…,e_j,k,…，e_j，l组成。在本文中，选定环境元素作为输入变量。设I＝{v₁,v₂,…}为一个包含所有输入变量的集合，则e_j，k等同I中的任意一个变量。

本发明设Y＝{Y₁，Y₂，…，Y_i，…，Y_m}为一个包含所有目标变量的集合，其中以故障的实际处理结果作为目标变量。本发明重点研究两种自动应对措施：自动重合闸以及强送电。当故障发生时，输电线路上的在线保护装置如断路器等将首先开始动作，下一步控制端再考虑是否采取强行送电的方式来尝试恢复线路供电。因此，二者中任意一个自动应对措施的成功都能极大地减小故障可能造成的损失。通过罗列这两个自动应对措施所有可能的执行结果，能够涵盖单次故障的所有实际处理结果。所有可能的故障处理结果如表1所示，其中自动重合闸中的“其他”代表未动作或未操作。

表1故障处理结果汇总

因此，任意一个目标变量Y_i均可使用三种故障处理结果中的一种来表示，并设Y(h_y)∈{Y(S),Y(P),Y(F)}代指三种故障处理结果中的任意一种。

基于以上设定，将各个集合写为矩阵形式：V，F＝[f₁,f₂,…,f_j,…,f_n,f_Y]，Y＝[Y₁,Y₂,…,Y_i,…,Y_m]^T。基于此，本发明构建了用于挖掘分析罕见变量的数据处理空间矩阵E

式中：从第二行开始的每一行都代表一次故障的记录，v_ij代表特征f_j中的环境元素。

结合E和各条故障记录的编号，年度输入数据库D_y可以被写为

式中：t_i代表第i行故障记录的编号。

重要度诊断标准的改进，常用的重要度诊断标准

对于输电线路系统中的故障记录，令I＝{v₁,v₂，v₃，…}为包含其中所有输入环境元素的集合，D＝{t₁，t₂，…，t_m}为含有m条故障记录的输入数据库。为构建一条关联规则，假设X为I的一个子集，Y为目标变量或目标变量集，若

且

则一条关联规则可以被写为

X→Y (2-3)

若这条关联规则被证实为可靠，则当X发生时，Y也将发生。

可靠关联规则主要有两种体现形式：第一种是高频变量集，即在输入数据库中出现频率超过所设置阈值的变量集X；第二种为频繁关联规则，即目标变量Y与X同时出现的概率满足所设置阈值的关联规则。通常高频变量集与频繁关联规则都由重要度诊断标准来计算相应重要度得分，并通过与所设置阈值进行比较来实现判别和筛选。目前最常用的两个重要度诊断标准为：

支持度(Support)表示在输入数据库D中，含有X的记录数量占总数的比例，主要用于筛选高频变量集。对于一条关联规则X→Y，X的支持度可以被写为

置信度(Confidence)表示在输入数据库D中，同时含有X和Y的记录数量在含有X的记录中所占比例，主要用于筛选频繁关联规则。一条关联规则X→Y的置信度可以被写为

由以上定义可以看出，对于一条关联规则，支持度和置信度的得分在不超过其上限的情况下越大越好。此外，还有一些着眼于其他方面的重要度诊断标准：

提升度(Lift)表示在X和Y相互独立的情况下，在多大程度上X和Y共同出现的频率大过预期。它主要用于筛选频繁关联规则。当一条关联规则的提升度等于1时，代表X和Y在D中的出现概率完全独立，也就是说没有任何相关性存在。而如果一条关联规则的提升度大于1时，其值越大则代表X和Y的相关性越大，越有利于后续的预测。一条关联规则X→Y的提升度可以被写为

信服度(Conviction)表示X出现与Y未出现这两种概率的乘积，和X出现且Y未出现的概率之间的比值。它主要用于筛选频繁关联规则。信服度和提升度较为相似，不同之处在于信服度分析了当Y未出现时的情况。这一点将有利于对关联规则逻辑方向的分析。一条关联规则X→Y的信服度可以被写为

杠杆度(Leverage)主要用来衡量当X和Y并非完全独立的期望下X和Y同时出现在D中的概率，与无此期望时X和Y同时出现在D中的概率的差值。它主要用于筛选频繁关联规则。与提升度相比，杠杆度将优先考虑在输入数据库中出现频率较高的条目。因此，当杠杆度为0时代表X和Y之间实际没有相关性存在，而杠杆度大于0的关联规则将被筛选出来。一条关联规则X→Y的杠杆度可以被写为

leve(X→Y)＝supp(X→Y)-supp(X)supp(Y) (2-8)

基于以上五个重要度诊断标准，筛选工作主要分为以下两个步骤：

1.通过变量集的支持度进行挖掘，所有支持度得分不小于所设置阈值(minsupp)的变量集即作为高频变量集；

2.将所有含有任意高频变量集的关联规则运用置信度、提升度、信服度以及杠杆度中的一个或几个进行进一步筛查，以挑选出其中的频繁关联规则。所挑选出的频繁关联规则的相应置信度、提升度、信服度以及杠杆度得分均需要大于或等于相应重要度诊断标准所设定阈值(minconf,minlife,minconv,minleve)。

条件重要度诊断标准阈值设定方法的设计

将传统ARM算法应用于对输电线路系统故障进行预测时，所存在的一大问题就是未计及由于故障在不同时段的不均衡分布所带来的影响。例如雷击故障通常出现在夏季，而冬季相对较为罕见。若一个系统中雷击故障最为常见，则该系统在一年内所发生的故障将主要集中在夏季。然而，ARM算法在面对一年中的不同时段时仍采用相同且不变的重要度诊断标准阈值，即对于夏季所发生的故障和冬季所发生的故障都采用同样的阈值进行评估和分析。但考虑到在冬季甚至在春秋两个季节中故障的发生频率都将相对较低，使得相应环境状态的重要度得分较低，容易低于基于一整年故障的发生情况所设定的阈值，从而导致这些罕见时间序列极易被直接筛除。

尽管在罕见时段中故障的发生频率较低，但其中的故障同样可能造成输电线路系统运行的中断，从而导致严重的损失，故需要在分析时计及这些罕见时段。为此，本发明设计了一种条件重要度诊断标准阈值的设定方法，能够针对性地根据年度输入数据库中的故障在不同时段中的分布来设定更加合理的阈值。例如，若在上面的例子中采用条件重要度诊断标准阈值设定方法，则能够为春夏秋冬分别依据各个季节中故障的分布情况设定不同的阈值，使得发生在冬季的故障同样能够得到充分分析。

本发明选择一个季度作为基准单位时段，在相同季度中所发生的故障将应用相同数值的条件重要度诊断标准阈值。设S＝{S₁,S₂,…,S_i,…,S_m}为m个包含所有故障所在季度的集合，其中S_i表示一次故障所在的季度，S(h_S)∈{S(1),S(2),S(3),S(4)}表示四个季度中的任意一个。因此，式(2-2)中的年度输入数据库可被进一步扩展为

基于五种重要度诊断标准：支持度、置信度、提升度、信服度及杠杆度，本发明提出了五种对应的条件重要度诊断标准阈值设定方法，能够依据故障在各个季节中的分布情况分别设定更为合理的阈值。相应阈值设定方法的数学表达可被表示为

式中：i＝2,3,…,(m+1)代表年度输入数据库D_y中的一行，|…|代表D_y中同时满足所包含全部条件的故障记录的基数，下标0代表在上一个年度周期中的重要度诊断标准阈值(若分析第一年中的数据时，则为初始预设阈值)，S(h_S)代表故障发生在春夏秋冬中的一个季度(h_S∈{1，2，3，4})，

代表该年度中故障发生频率最高的一个季度，Y(h_Y)代表三种故障处理结果中的一种(h_y∈{S,P,F})。对于涉及故障处理结果的重要度诊断标准：置信度、提升度、信服度及杠杆度，在设定它们的条件重要度诊断标准阈值时，将分别依据故障处理结果实施设定。例如，

均仅对应故障处理结果为“成功”的故障记录。

条件重要度诊断标准计算方法的设计

由于罕见故障原因或罕见环境元素相关的输电线路系统故障同样可能导致严重的损失，故应进一步从罕见变量中挖掘包含HILP故障原因与HILP环境元素在内的HILP变量。因此，本发明将一条关联规则X→Y进一步扩展为

X^g+X^r→Y (2-15)

式中：X^g和X^r分别代表常见变量集和罕见变量集。

目前，传统ARM模型在预测输电线路系统故障时所存在的另一大问题就是在挖掘的过程中将这些HILP变量直接筛除。这主要是因为ARM模型即使在面对不同环境特征中的罕见变量时，仍采用与相应特征中常见变量相同且固定的重要度诊断标准得分计算方法来计算重要度得分。由式(2-15)可知，传统重要度诊断标准得分计算方法主要受到来自数据库中占据多数的常见变量集X^g的影响，从而使得罕见变量集X^r难以被纳入到分析之中。例如依据某数据库中的故障记录，特征“地形”中的“山顶”为常见元素而“山坡”为罕见元素。若采用传统重要度诊断标准得分计算方法，含有元素“山坡”的故障记录所得到的重要度得分将难以达到阈值，从而容易被直接排除。

为此，本发明基于支持度、置信度、提升度、信服度及杠杆度这五种重要度诊断标准计算方法的原始形式即式(2-4)到式(2-8)，提出了相应的条件形式得分计算方法。这五种条件重要度诊断标准得分计算方法能够依据不同环境特征中罕见变量的分布，通过不同的计算方法计算其重要度得分，从而能够同时从罕见变量集中进一步挖掘出HILP变量。因此在上例中，若采用条件重要度诊断标准得分计算方法计算含有元素“山坡”故障记录的重要度得分，将使得其得分更易于达到所设定阈值，从而能够对相应故障记录进行分析以验证元素“山坡”是否为HILP变量。当一条关联规则X^g+X^r→Y含有某一个环境特征f_j中任意一个罕见环境元素时，针对该特征中罕见变量的条件重要度诊断标准得分计算方法能够被写为

式中：Y(h_Y)代表三种故障处理结果中的一种(h_y∈{S,P,F})，R_g代表从2到(n+1)的数值区间。

与重要度诊断标准的阈值设定策略类似，当应用涉及到故障处理结果的重要度诊断标准即置信度、提升度、信服度及杠杆度时，需要分别依据故障处理结果实施计算。例如，lift_j,S、conv_j,s、leve_j,S均仅对应故障处理结果为“成功”的故障记录。

关联规则挖掘FP-Growth算法

目前，ARM算法有了很多新的发展。如PrePost算法同样把输入条目数据转换为树状结构，从而减少了扫描时间成本；BitTableFI算法把输入条目数据转换为二进制向量，用逻辑运算与矩阵运算来代替数据扫描以加快运算速度。这些ARM新算法大多主要着眼于通过减少数据扫描或加快运算速度达到减少运行时间的目的。但考虑到本文主要面向长期的预测，换言之，可用于算法运行的时间较为充足；且由于目前电力运维检修部门的工作较为到位，我国的高压输电线路系统中所发生故障的数量相对有限，使得输入数据的容量相对较小，所以运行时间相对可控。因此，本文目前不以缩减算法运行时间作为首要目标，故选择FP-Growth算法这一较为成熟的算法作为ARM算法。若在未来需要解决其他问题时，可以依据具体要求重新选择ARM算法。

FP-Growth算法采用了一种新的前缀树结构来存储包含频繁关联规则在内的关键信息，是一种较为高效且可扩展的关联规则挖掘方法。相比Apriori算法，FP-Growth算法在挖掘过程中不会产生大量的候选变量集，因而运算速度获得了较大的提升。

简单来说，FP-Growth算法首先将输入数据通过重要度诊断标准阈值进行检验，并将所选出的高频变量集依据其重要度得分高低进行排序；接下来，根据排序结果依次将变量依照路径对应到FP-tree的节点上，直到将所有数据都加入到FP-tree上，完成FP-tree的构建；最后通过记录1-项高频集出现次数的变量表(Headtable)获取所对应的条件模式基，并递归挖掘出高频变量集，直到表格中的变量被处理完为止。FP-Growth算法的具体流程如图1所示。

ARMret预测模型的验证方法

预测模型性能的评价方法

为验证预测模型的性能，输电线路系统故障的预测结果将与这些故障的真实记录进行对比。混淆矩阵(Confusion Matrix，CM)能够区分模型的判断结果是否正确，因此常被用于模型性能评估。CM的表现形式如表2所示。

表2 2×2混淆矩阵

基于表2的结果能够推导出四种常用的评价变量：真阳率(True Positive Rate，TPR)、假阳率(False Positive Rate，FPR)、准确值(Positive Predictive Value，PPV)以及真阴率(False Negative Rate，FNR)。它们的数学表达可被表示为

基于这四个评价变量，本发明能够构建相应的预测模型性能评价方法。在预测的过程中，评价阈值T被用于判别一次预测结果为阳性还是阴性。如果预测对象O_i的得分比评价阈值T要高，则该预测结果将被认定为阳性，反之为阴性。因此，TPR和FPR也可以被写为

式中：

代表预测对象O_i在场景s_j中被确认是真阳性的条件概率密度函数，

代表预测对象O_i在场景s_j中被排除是真阳性的条件概率密度函数。

当评价阈值T在0至1之间变化时，TPR和FPR的数值将呈现出互为反比的变动趋势。接受者操作特性曲线(Receiver Operating Characteristic,ROC)能够精确地描述TPR和FPR数值的变动趋势。

应用ROC曲线下面积(Area Under the ROC,AUROC)作为评价方法，其数学表达形式如下

式中：T₁和T₂分别代表两个不同评价阈值，I(T₁>T₂)函数为指示函数，即T₁>T₂时函数值为1，反之为0。

对于一次完美的预测，其TPR数值为1而FPR数值为0，故所生成的ROC曲线必然经过坐标(0,1)。尽管在现实中并不存在完美的预测，但若预测模型所做预测的ROC曲线越接近左上角位置即AUROC的数值越大，则该预测模型的性能越好。为计及ROC运算过程中的不确定度，本发明在分析AUROC的同时加入两个评价指标，标准误差(Standard Error，SE)和置信区间(Confidence Interval，CI)，其中CI采用95％的置信区间。在本发明的后续算例分析中将综合AUROC、SE以及CI来衡量预测模型的性能。考虑到AUROC和SE为离散数值而CI为数值区间，故本发明选择平均置信区间(CI上下限的平均值)以及平均置信区间浮动(CI上下限变动数值的平均值)这两种形式来对不同预测模型的CI进行对比。

预测模型的验证流程

假设输入数据库包含总计z年的故障记录。故本发明采用z重交叉验证方法，在每一组测试中进行z轮预测和验证。首先将输入数据库按照年份总数划分为z部分，在每一轮预测和验证中，z部分数据中的z-1部分作为训练数据而剩下的1部分作为验证数据。这样能够保证输入数据库中的每一条故障记录都至少被验证一次，从而进一步减小由于潜在数据偏置而产生的影响。通过训练数据能够挖掘出相应的环境元素-故障规则，从而求解出测试数据中各条故障记录所在环境状况下的预测故障风险度。最后，通过对比预测故障风险度与测试数据中相应记录的真实故障处理结果，对ARMret模型的性能作出评价。

ARMret预测模型的实施流程

基于以上讨论和分析，本发明所设计的ARMret预测模型的具体步骤如下所示：

1.在输入数据库的训练数据集中，针对某一个环境特征f_j所含有的全部环境元素，采用基于条件重要度诊断标准阈值设定方法(式(2-10)到(2-14))的重要度诊断标准计算方法挖掘出其中相应的罕见元素，余下的元素即为常见元素；

2.不含该特征中任何罕见元素的故障记录被归类于S^g；

3.含有该特征中任意罕见元素的故障记录被归类于

中，并通过条件重要度诊断标准计算方法(式(2-16)到(2-20))挖掘基于这些罕见元素的HILP元素，以高频变量集和频繁关联规则的形式体现；

4.对于训练数据集中的每一个环境特征，依次重复进行第1-3步；

5.由式(2-23)求解各个元素的相对权重；

6.基于第5步所求各个元素的相对权重，依据测试数据集各条故障记录中所含环境元素计算相应记录的预测故障风险度，并归一化(0→1：不可能发生→一定发生)；

7.将预测故障风险度与测试集中相应记录的真实故障处理结果相比较(0或1：故障处理结果发生或未发生)，从而评估所提出预测模型的性能；

结合以上步骤，本发明所构建的ARMret算法预测流程如图2所示。

算例分析

算例数据描述

本发明采用位于中部某省的高压输电线路系统作为算例系统。该省输电线路截止2017年底共计6.62万公里，且该省具有地形复杂、气候多变的特点。因此该系统能够提供足够的故障样本。本发明基于2011至2016年发生在该系统中220kV及以上电压等级线路中的故障记录进行预测和验证。该系统区域在该时间段内的气象数据由中国气象部门提供，其中数据以通用协调时(UTC,Universal Time Coordinated)为基础每小时进行更新。

本发明所选取故障记录均含有28个环境特征，相应的气象数据包含26个气象特征。为增强本发明所提出的ARMret预测模型在不同应用场景中的实用性和灵活性，需要对原始数据中的特征进行筛选。图3为本发明设计的输入特征筛选条件。通过这五个筛选条件，一些适用性窄或者包含信息较少的特征被剔除。例如绝缘器材质一般仅与雷击故障相关，导线覆冰厚度一般需要专业检测仪器进行测量，杆塔编号的统计意义较差等。最终，本发明采用故障记录中的八个特征以及气象记录中的八个特征进行预测。

本发明所选用的输入数据库共包含15种故障原因，将全部纳入到分析之中。这些故障原因可以被分为两类：主要故障原因和次要故障原因。这两者的主要区别为：次要故障原因是指与主要故障原因同时出现的故障原因，但危害相对较小或与某特定主要原因绑定发生。一次故障可能由一种或两种故障原因所引起。因此，在输入数据库中的每一条故障记录中都同时标注主要故障原因及次要故障原因。当一次故障中的实际原因仅有一种时，该次故障记录中的次要故障原因将被标注为“无或不明(X)”。

本发明所选取的故障处理结果依据表1中的信息。

综合以上信息，本算例选取的输入环境特征以及所包含的元素如表3所示。

表3选取的环境特征及所含元素汇总

故障结果测试分析

依据预测对象的不同，本算例首先实施了故障结果预测。故障结果预测包含了所有类型故障的记录，将依据三种故障处理结果将故障记录分为三组，并分别进行预测和验证。

基于表3中的输入数据，通过基于条件重要度诊断标准阈值设定方法的传统重要度诊断标准计算方法从中挖掘出相应的罕见环境元素，其中初始阈值设为minsupp₀＝0.2、minconf₀＝0.6、minlift₀＝1.1、minconv₀＝1.1、minleve₀＝0.1。由于应用不同年份数据作为训练数据时的挖掘结果也会不同，故此处以前五年数据作为训练数据时所挖掘出的罕见环境元素为例，挖掘结果如表4所示。表4基于前五年数据的罕见环境元素汇总

在故障原因测试中，根据三种故障处理结果(成功、合格和失败)进行了三组测试。在每一组测试中，所研究的故障处理结果为阳性而另外两种为阴性。例如，在第一组测试中所研究的故障处理结果为“成功”，则“成功”相关的记录将作为阳性样本而“合格”及“失败”相关的记录则成为阴性样本。基于ARMret预测模型的ROC曲线和基于ARM预测模型的ROC曲线对比如图4所示，具体预测效果的数据对比如表5所示。

表5故障结果测试预测效果数据

通过图4和表5可得，ARMret预测模型能够获得更好的预测效果。相比ARM预测模型，ARMret模型在AUROC、SE和CI上的得分分别改善了平均24.54％、40.24％和24.53％。在三种故障处理结果中，能够发现ARMret预测模型对其中“失败”故障的预测最为精确，而对其中“合格”故障的预测精确度相对较低。这主要是因为不同故障处理结果所造成的实际影响程度也不相同。其中，“失败”故障发生时通常将引起相对更大的损失，故往往存在事后人工介入进行处理。而相比“失败”故障，“合格”和“成功”故障都由自动应对措施成功处理，从而无需事后人工介入。考虑到事后人工介入一般能够提供更为详尽准确的故障记录，因此“失败”故障的预测准确性自然相对更高。此外，由于“合格”故障相对“成功”故障数量相对较少，导致“合格”故障记录的数据样本也相对有限，从而影响了预测的准确性。

故障原因测试分析

本算例实施的另一种类型的测试为故障原因测试。在故障原因测试中，所有由相同故障原因所导致的故障将被分批进行预测，故本算例共实施15组测试。不同于故障结果测试，在每组测试中，本算例均选择“成功”和“合格”同时作为阳性特征元素，而仅有“失败”作为阴性特征元素。基于ARMret预测模型和基于ARM预测模型的预测效果统计和对比如图5所示，其中横坐标轴上的各个字母为相应故障原因代指符号。由图5可得，ARMret预测模型在所有15组故障原因测试中均取得了更好的预测效果。相较ARM预测模型，ARMret预测模型在AUROC、SE和CI的得分上分别取得了平均25.64％、72.79％和15.30％的提升。在所有的15种故障原因中，可以发现针对由雷击(B)所导致故障的预测效果最好，针对由导线舞动(M)、树木(I)、外力(C)、山火(D)、大风(L)、违法施工(K)所导致故障的预测效果也居于前列。相反，针对由异物(J)、其他(N)所导致故障的预测准确度相对较低。这种差别由多个因素导致。一方面是数据容量的影响。在本算例所使用的输入数据中，由雷击(B)引发故障的记录数量较多，占比最大；而由异物(J)、其他(N)所导致故障的记录相对较少；另一方面，一些故障类型与外界环境相关性更强，也更有规律可循，如雷击(B)与夏季的风暴天气密切相关。然而对于其他(N)故障本就包含许多其他细分类型的故障，故具体相关的环境特征较少。而外来异物本身的随机性较大，且容易受到人为干扰，故由异物(J)所导致故障的相关规律也相对较少。为改善这一状况，首先应该寻求更多由异物(J)、其他(N)所导致故障的记录以充实输入数据；其次，应争取更为详尽或包含更多环境特征的相关类型故障记录。

总结：

在传统ARM预测模型中，包括罕见环境元素和故障罕见时段在内的罕见变量通常难以得到分析，进而影响故障预测的准确性。为此，本发明基于传统ARM模型构建了ARMret预测模型。首先，提出了五种条件重要度诊断标准阈值设定方法，能够根据故障在各个时段中的分布为不同时段分别设定更有针对性的阈值，从而可以在挖掘输入数据中的罕见变量时计及故障罕见时段的影响；然后，改进了五种传统重要度诊断标准得分计算方法，能够依据罕见环境元素在各个特征中的分布，提供与常见环境元素不同的得分计算方法，从而可以在从罕见变量中继续挖掘HILP变量时计及罕见环境元素的影响。最后，基于中部某省输电线路系统的实际算例结果表明：通过计及罕见变量，ARMret模型能够实现对预测效果的有效提升。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不局限于此。在不脱离本发明原理的前提下，还可对相关技术做出改进或替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种TFRI权重计算模型的建立方法，其特征在于，基于ARMret预测模型，建立TFRI权重计算模型，TFRI是指双重风险指数。

2.根据权利要求1所述的TFRI权重计算模型的建立方法，其特征在于，所述的TFRI权重计算模型由下式表征：

式中：ω_E和ω_T分别为

和

的权重，均取值为“1”，

为TFRI值；

年度输入数据库D_y为：

式中：

第一个变量D_y：D_y∈D＝{D₁，D₂，...，D_z}代表输入数据库D中一年的数据，即在一年内所有发生故障的记录，D₁，D₂，...，D_z代表输入数据库D中第一年、第二年直至最后一年(D_z)的数据。

第二个变量t_i：t_i代表任意一个(位置为第i行)故障记录的编号。其中假设总计收录了m条故障记录，因此，i＝1,2，...，m。

第三个变量f_j：F＝{f₁，f₂，...，f_j，...，f_n，f_Y}为一个包含所有环境特征的集合，f_j为环境特征变量(如天气)，f_Y为相应的目标特征变量(目标变量，此处为故障是否处理成功)。

第四个变量v_ij：每一个环境特征f_j都由一组环境元素e_j，1，e_j，2，...，e_j，k，...，e_j，l组成(特征“天气”包含元素：“晴天”、“阴天”、“多云”。。。)，其中第一个下标表示元素对应第j个特征f_j，其中第二个下标k＝1,2，...，l表示总计l个元素中的任意一个。选定环境元素作为输入变量。设I＝{v₁，v₂，...}为一个包含所有输入变量的集合，则e_j,k等同输入变量集合I中的任意一个变量v_ij(假设出现在第i行的故障记录中，对应第j个特征f_j)；

第五个变量Y_i：设{Y₁，Y₂，...，Y_i，...，Y_m}为所有的目标变量，具体为故障的实际处理结果。在处理故障时，共考虑两种故障处理措施：自动重合闸和强送电。因此，故障处理结果的设定如下：当故障发生时，若自动重合闸成功，则称为“成功”；若自动重合闸失败或未动作而强送电成功或未启用，则称为“勉强成功”；其他，则统称为“失败”。因此，出现在第i行的故障记录中目标变量Y_i可采用三种故障处理结果中的一种(成功、勉强成功、失败)来表示，并设Y(h_y)∈{Y(S)，Y(P)，Y(F)}代指三种故障处理结果(success、proper、failure)中的任意一种。

第六个变量d＝{d₁，d₂，...，d_i，...，d_m}：表示包含所有故障所导致电力中断持续时间的集合

第七个变量S＝{S₁，S₂，...，S_i，...，S_m}：表示包含所有故障所在季度的集合，其中S_i表示一次故障所在的季度，S(h_S)∈{S(1)，S(2)，S(3)，S(4)}表示四个季度中的任意一个。

第八个变量A＝{A₁，A₂，...，A_i，...，A_m}：表示所包含研究地区所有子区域的集合，其中A_i表示一次故障所在的子区域，A(h_a)∈{A(1)，A(2)，A(3)，...}表示所研究地区中的任意一个子区域。

第九个变量L＝{L₁，L₂，...，L_i，...，L_m}：表示包含所有故障所在故障日稳定性评估等级的集合，其中L_i表示一次故障所在故障日的稳定性评估等级，L(h_l)∈{L(M)，L(S)，L(B)}表示三种等级(MED，SED，BED)中的一个等级。[主要故障日(Major Event Day，MED)、严重故障日(Severe Event Day，SED)和一般故障日(Basic Event Day，BED)。]。

3.根据权利要求1所述的TFRI权重计算模型的建立方法，其特征在于，