CN116522111A

CN116522111A - 远程停复电故障自动诊断方法

Info

Publication number: CN116522111A
Application number: CN202310419854.2A
Authority: CN
Inventors: 崔超奕; 张刚; 任伟; 张靠社; 冯双; 解佗; 石宁; 贾天圣; 曹靖航; 屈林静; 王海鹏; 张澜
Original assignee: State Grid Shaanxi Electric Power Co ltd Marketing Service Center Measuring Center; Xian University of Technology
Current assignee: State Grid Shaanxi Electric Power Co ltd Marketing Service Center Measuring Center; Xian University of Technology
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-08-01

Abstract

本发明公开了一种远程停复电故障自动诊断方法，具体按照以下步骤实施：步骤1、采样分析不同停复电故障特征；步骤2、分类决策树停复电故障溯源模型；步骤3、决策优化和停复电故障原因分类。本发明填补了停复电失败原因自动诊断方面的空白，提升远程停复电业务运营智能化水平。

Description

远程停复电故障自动诊断方法

技术领域

本发明属于电力技术领域，具体涉及一种远程停复电故障自动诊断方法。

背景技术

传统的电费收缴方式存在信息沟通困难、缴费滞后、电费回收率低等特点，《国家电网公司关于2017年居民客户智能交费业务推广工作的意见》(国家电网营销〔2017〕236号)中指出依托智能电能表全覆盖和“互联网+营销服务”深化应用，以便捷客户交费、防范欠费风险、降低业务成本、保障经营效益为目标，以用电信息采集、远程实时费控等系统为支撑，实现自动远程停复电，促进电费管理和服务方式变革，助力公司营销服务转型升级。远程费控技术自实施以来在降低公司电费回收风险的同时，减轻了一线人员电费收缴的工作量，对电网公司智能化用电起到了重要推动作用。

远程实时费控系统负责测算用户每日电费余额，生成停复电工单；营销业务应用系统负责费控用户及其设备的档案管理；用电信息采集系统负责下达远程停复电指令；采集终端、远程及本地通信单元和智能电能表等设备负责执行远程费控指令。但是费控采集设备种类由原有的5种扩充至现在的数十种，不同厂家、不同通信协议、不同通信方式、新老设备混装造成的通信协议配置错误、远程/本地通信网络不稳定、采集终端与电能表组合方式错误等问题越发凸显，远程停复电失败原因排查难度也成倍增加。现阶段，排查某一类型困难甚至要花费数周时间，基层运维人员工作量加大的同时，限制了对客户的优质服务。

因此，如何基于现有远程费控系统、营销业务应用系统、用电信息采集系统相关日志、指令推送数据建立一套自动诊断方法对远程停复电涉及各系统、各设备故障进行自动分析，全方位提升远程停复电失败原因分析数字化水平，彻底明确远程停复电失败原因，提升远程停复电业务运营质效，减轻基层运维压力、提升客户满意度，是远程停复电业务数字化转型的必经之路。

发明内容

本发明的目的是提供一种远程停复电故障自动诊断方法，填补了停复电失败原因自动诊断方面的空白，提升远程停复电业务运营智能化水平。

本发明所采用的技术方案是，远程停复电故障自动诊断方法，具体按照以下步骤实施：

步骤1、采样分析不同停复电故障特征；

步骤2、分类决策树停复电故障溯源模型；

步骤3、决策优化和停复电故障原因分类。

本发明的特点还在于，

步骤1具体如下：

步骤1.1、数据清洗；

步骤1.2、特征编码；

步骤1.3、采用KUS算法对数据进行不平衡处理。

步骤1.1具体如下：

1)解决不完整数据：从本数据源推导出来缺失值，使用均值填充或者众数填充或者中值填充的方法补充上缺失的数据；

2)错误值的检测：用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或回归方程的值；

3)重复记录的检测及消除：数据集合中属性值相同的记录被认定是重复记录，通过判断记间的属性值是否相等检测记录是否相等，相等的记录将合并为一条记录。

步骤1.2具体如下：

将用户ID、终端ID、资产编号、通讯协议、故障表象、故障原因转换为数值类型数据，根据不同数据特征分别构建编码字典，通过特征编码表映射的方式对数据进行特征编码，同时将字符串或文本类型转换为数值类型数据，用户ID、终端ID、资产编号、通讯协议数据均为字符串类型数据，故障表象、故障原因均为本文类型数据，特征编码时规定：1开头为部分原始数据，2开头为故障表象，3开头为故障原因，最后以7：3的比例对数据集进行划分，分别得到训练集和测试集。

步骤1.3具体如下：

首先识别出小的非异常电费数据集群，然后从非异常电费数据样本密度高的子集中去除特定数据，以减少非异常电费数据样本信息丢失，然后，使用四分位距从数据集中识别和删除多数类样本异常值，离群点检测方法如下：

Q₃＝data['column'].quantile(0.75) (1)

Q₁＝data['column'].quantile(0.25) (2)

IQR＝Q₃-Q₁ (3)

data＝data[(data['column']<Q₃+1.5*IQR)]&data[(data['column']>Q₁-1.5*IQR)]

(4)

式中：Q3表示数据维度第三分位；Q1表示数据维度第一分位；data表示数据集中数据；column表示各数据重要特征；quantile表示四分位比例；IQR表示四分位距离；

使用式(1)和式(2)确定数据距离离群点维度的第三和第一分位数，然后按式(3)计算数据四分位距离，最后通过式(4)过滤离群值；

采用以下方法对位于多数类样本区域中的合成数据进行删除，首先通过统计每个合成数据的K近邻中少数样本的数量获得置信度，置信度越大，K近邻中的少数样本越多，然后将每个合成样本按照置信度从大到小进行排序，并删除置信度低的数据，

首先，将全部少数类样本从训练集中分离出来，建立特征字典，并根据式(5)进行标准化计算L₂范数：

式中：y_i,j表示特征字典中样本点；

最后在KNN模型中制定样本置信度，模型反映样本最近邻的分布，在样本确认阶段，样本的置信度定义为：

式中：confident(T)表示样本置信度；M表示少数样本中K最近邻数量；T表示合成少数样本中最近邻总数；

将KUS欠采样得到的数据集与KSOS过采样产生的数据进行融合，KUS-KSOS混合采样能够有效处理数据不平衡问题。

步骤2具体如下：

步骤2.1、特征选择：

评价数据集的纯度用信息熵，计算如式(7)所示：

式中：Ent表示信息熵；y表示数据集中不同类别样本数；p_k表示数据集中第k类样本出现的概率；

Ent值越小，该数据集越纯；

信息增益计算如式(8)所示：

式中：Gain表示信息增益；Ent表示信息熵；D表示数据集；D^m表示数据集D中m的子集；

提出信息增益率，计算如式(9)所示：

其中：

式中：

GainRation表示信息增益率；Gain表示信息增益；SplitInformation表示分列信息量；

步骤2.2、决策树剪枝：

在预剪枝阶段，将来自不同类别的样本同时放入结点中，并使用多数投票的方式确定结点的类别，后剪枝的目的是生成一个完全生长的决策树，然后从下往上计算是否进行剪枝，剪枝过程移除子树并用叶结点替换它们，叶结点同样按多数投票进行分类。

步骤3具体如下：

1)设类别数为K，将所有根节点个体的基因即步骤1.2中的费控系统故障特征作实值编码，基因片长度均为K，并从中随机筛选出初始种群A₀；

2)对A_i群中每个个体做随机变异操作，i＝0,1,2,...,n，定义一个变异阈值φ，每个个体产生一个随机数random，如果该随机数大于阈值，则在个体基因片的第k个随机位置上进行变异，表示为/>

3)将A_i中每个个体的基因分裂为两个子基因片/>与/>对应的子节点个体为和/>并产生一个二值分类器/>然后对比这一代的决策树的结构选取下一代的节点种群A_i+1，用公式表示为A_i+1＝select(S_i,λ)；

4)如果种群A_i+1中的每一个节点个体的基因片段长度都为1，即len(A_i+1)＝1，那么A_i+1为叶子节点层，除此之外再从对比整个积累过程中适应度数值的发展，选取数值最大的二值分类器将/>或者/>作为最优结构二叉树的叶子节点a_leaf，从这一节点返回到之前的出发点，构建出来的决策树也是最好的，采用公式表示为Tree＝backtrack(a_leaf)，结束算法；否则跳转到步骤5)；

5)对于使用的分类器要将概述算出的概率大小进行选择：

式中：p(θ_i ^j,m,n)表示选择分类器的概率；fitness_cumulative(θ_i ^j,m,n)表示选择的分类器；表示所有分类器之和；

通过式(12)计算选取概率最大的一组分类器，并且重新按照λ的比例计算继续选取，并组成新的集合再将/>中每个分类器/>的子节点/>与/>将选出的数重新组成一个种群A_i+1，i自加1后跳转到步骤2)。

本发明的有益效果是，远程停复电故障自动诊断方法，通过建立远程停复电失败原因分析模型，依托聚类算法、决策树算法等手段，以系统、设备间交互数据为支撑，全面自动分析远程停复电失败原因，可以根据已发生的停复电故障找出故障原因，减少了之前故障原因需要人力逐步排查的繁琐方法和基层人员运维压力，提升了远程停复电业务运营智能化水平。

附图说明

图1是本发明一种远程停复电故障自动诊断方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

基于分类决策树的远程停复电故障自动诊断方法，包括分析不同位置停复电故障时的特征并进行采样分析，构建基于故障特征建立分类决策树的故障溯源模型和利用CFGA—SVM算法进行决策优化进行故障反向溯源。

针对不同位置停复电失败时的特征并进行采样分析是指，为了更好的构建停复电失败自动检测模型，需要对原始数据进行数据清洗，剔除数据集中异常值和缺失值。使用标签编码对处理完的数据进行特征编码，分析不同故障下的数据特征。由于数据集中正样本和负样本占比相差很大，数据不平衡时机器学习算法将会偏向于正常停复电类别样本，导致模型在正常停复电类别样本中识别有效，而在停复电失败类别样本中识别不佳，为了解决这一问题提高停复电失败原因自动诊断精度，引入KUS—KSOS混合采样算法对数据集进行采样，最终使得数据集各类样本平衡；

分类决策树停复电故障溯源模型是指，研究决策属性对条件属性的依赖和关联，对条件属性进行约简，建立基于条件属性和决策属性的故障诊断决策表。利用故障诊断决策表建立分类决策树停复电故障溯源模型，并以决策树形式揭示不同时间、不同场景下的停复电故障原因。

决策优化和停复电故障反向溯源是指，利用CFGA—SVM算法以明确系统目标和功能需求、性能需求，以系统诊断时间短、正确率高为目标，解决优化决策树停复电故障溯源问题。该算法优化后的分类决策树停复电故障溯源模型具有学习能力，可以在发生停复电故障后自动溯源反推故障原因。

本发明远程停复电故障自动诊断方法，流程图如图1所示，具体按照以下步骤实施：

步骤1、采样分析不同停复电故障特征；

步骤1具体如下：

为更好的构建停复电故障检测模型，首先将对数据集进行数据清洗，特征编码与分析、特征选取以及数据集划分工作，后续再用KUS—KSOS方法对不平衡数据集采样。

步骤1.1、数据清洗；

步骤1.1具体如下：

由于不同原因，费控系统采集到的数据经常会产生重复值、缺失值和不准确值。建立故障检测模型前对数据集进行数据清洗，以保证模型检测的精度。

1)解决不完整数据：从本数据源推导出来缺失值，使用均值填充或者众数填充或者中值填充的方法补充上缺失的数据；就近补齐方法也用最可能的值替换缺失值，但区别在于，在填充缺失值之前会在整个数据集中搜索数据，以查找最接近的数据进行缺失值填补。

2)错误值的检测：用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或回归方程的值；也可用简单规则库检查数据值。

步骤1.2、特征编码；

步骤1.2具体如下：

由于部分字段数据为字符串或者文本类型，需要将用户ID、终端ID、资产编号、通讯协议、故障表象、故障原因转换为数值类型数据，根据不同数据特征分别构建编码字典，如用户ID编码为11以此类推，通过特征编码表映射的方式对数据进行特征编码，同时将字符串或文本类型转换为数值类型数据，用户ID、终端ID、资产编号、通讯协议数据均为字符串类型数据，故障表象、故障原因均为本文类型数据，特征编码时规定：1开头为部分原始数据，2开头为故障表象，3开头为故障原因，特征编码表如表1所示。最后以7：3的比例对数据集进行划分，分别得到训练集和测试集。

表1特征编码表

原始数据	特征编码
		用户ID	11
终端ID	12
		资产编号	13
通讯协议	14
		电表返回密码错误/未授权	21
等待前置返回超时(3分钟)	22
		面向对象终端等待电表返回超时	23
终端没有返回电表数据	24
		对应电表ID不一致	31
通讯协议不一致	32
		采集终端ID不一致	33
资产编号不一致	34

步骤1.3、采用KUS算法对数据进行不平衡处理。

步骤1.3具体如下：

样本不平衡指的是数据集中正样本和负样本占比相差很大，当数据样本不平衡时，由于正常数据占比远高于异常数据占比，机器学习算法将会偏向于正常类别样本，导致模型在正常类别样本中识别有效，而在异常类别样本中识别不佳。

KUS算法的工作原理是首先识别出小的非异常电费数据集群，然后从非异常电费数据样本密度高的子集中去除特定数据，以减少非异常电费数据样本信息丢失，然后，使用四分位距从数据集中识别和删除多数类样本异常值，离群点检测方法如下：

Q₃＝data['column'].quantile(0.75) (1)

Q₁＝data['column'].quantile(0.25) (2)

IQR＝Q₃-Q₁ (3)

data＝data[(data['column']<Q₃+1.5*IQR)]&data[(data['column']>Q₁-1.5*IQR)]

(4)

KSOS算法使用稀疏表示替换了SMOTE算法的K最近邻，从而使合成数据与原始少数类样本分布更加一致，KSOS合成的大部分数据都放在少数类样本区，这有助于防止噪声样本的传播，采用以下方法对位于多数类样本区域中的合成数据进行删除，首先通过统计每个合成数据的K近邻中少数样本的数量获得置信度，置信度越大，K近邻中的少数样本越多，然后将每个合成样本按照置信度从大到小进行排序，并删除置信度低的数据，

式中：y_i,j表示特征字典中样本点；

仅使用KUS欠采样来解决样本平衡问题将大大降低原始样本量，而仅使用KSOS过采样来生成大量低样本数据会在数据中引入噪声并损害其真实性。因此，将结合KUS和KSOS的优势，将KUS欠采样得到的数据集与KSOS过采样产生的数据进行融合，KUS-KSOS混合采样能够有效处理数据不平衡问题，提高算法模型的准确率和异常数据检测的查全率和查准率。

步骤2、分类决策树停复电故障溯源模型；

步骤2具体如下：

决策树由内部结点、叶结点和有向边三部分组成，是一种根据指定的规则对数据集分类和预测的机器学习算法，内部结点代表数据实例的特定特征属性，可分为根结点和中间结点，叶结点表示将数据示例从根结点到叶结点的路径从上到下进行分类得到的数据类别值，有向边是从上到下连接结点的线，决策树学习的目标是通过数据训练创建一个决策树模型，该模型可以使用一组已知样本有效地对未知样本进行分类，决策树学习方法主要包括特征选择和决策树剪枝。

步骤2.1、特征选择：

决策树算法递归地选择最佳特征，从而为每个子数据集产生最佳分类过程，随着数据集继续被分割，要求决策树分支结点尽可能多的包含来自同一类的样本。

评价数据集的纯度用信息熵，计算如式(7)所示：

Ent值越小，该数据集越纯；

样本越多，分直接点的影响力越强，这时候信息增益计算如式(8)所示：

信息增益偏向取值较多的特征，当特征的取值较多时，根据此特征划分更容易得到纯度更高的子集，因此划分之后的熵更低。由于划分前的熵是一定的，信息增益更大，所以信息增益比较偏向取值较多的特征。为了克服该缺点，提出信息增益率，计算如式(9)所示：

其中：

式中：

与信息增益相比，信息增益率不是直接选择信息增益率最大的特征，而是在候选特征中找出信息增益高于平均水平的特征，然后在这些特征中选择信息增益率最高的特征。

步骤2.2、决策树剪枝：

基于最优特征选择的决策树通常非常擅长预测训练数据，但它们可能不擅长对未知数据进行分类，从而导致“过度拟合”。重复结点划分的过程是为了尽可能准确地对训练样本进行分类，有时决策树中的分支太多，此时训练样本可能“太好了”，训练的一些特征集合本身被视为可以对所有数据通用，导致过度拟合。因此，通过消除一些分支，可以避免过拟合的风险。

“预剪枝”和“后剪枝”是两个主要的决策树剪枝过程，预剪枝的基本原理是在扩展树的结点之前确定当前的特征是否会增加模型的泛化能力，如果没有，则不会形成新的子树。在预剪枝阶段，将来自不同类别的样本同时放入结点中，并使用多数投票的方式确定结点的类别，后剪枝的目的是生成一个完全生长的决策树，然后从下往上计算是否进行剪枝。剪枝过程移除子树并用叶结点替换它们，叶结点同样按多数投票进行分类。类似地，测试集的准确率可以用来衡量后剪枝的情况，如果剪枝后测试集的准确率有所提高，则进行剪枝。

步骤3、决策优化和停复电故障原因分类。

步骤3具体如下：

目前SVM是一个二值分类器，对于研究的大多数问题是不适用的，现在研究的有关多值分类器中都是含有多个SVM，通过增加分类器的数量起到解决多数值问题。但是这种方法存在很大的问题，因为每一个分类器只能处理二值，如果想让它处理多值就需要采用大量的SVM分类器，这样就会增加工作量花费大量时间。

还有一种就是决策树SVM，这种分类器的工作效率快，它的工作方式和前两种存在不同，它可以只考虑有用的二值分类器，节省了大量的时间，但是在计算的过程中容易出现错误。

所以选取一个按照累计适应度遗传算法为中心的算法，与SVM结合形成多分类算法，简称为CFGA—SVM，该方法可以提高计算精度，减少外界对于决策树工作的影响。具体如下：

步骤3.1、支持向量机理论

SVM计算方法提出是为了用来计算原来二值分类等问题的，这种方法用两个数字表示不同的类别，假设两个类别的最大间距为M，具体的计算方法按照式(11)计算方法：

式中：M_max表示两个样本类别最大间距；ω表示超平面的法向量；x_i表示训练的样本；y_i表示选择样本的种类，i＝1,2,3,...,n；

计算中采用线性约束，确保其中没有另外的样本点给计算产生误差；

步骤3.2、遗传算法：

遗传算法由编码、适应度函数和初始群体选取构成基本框架。运算过程中可以加入交叉、替换等重组操作，这样会使遗传算法搜索能力大幅提升。

从群体中选择优胜的个体，淘汰劣质个体的操作叫选择。选择算子有时又称为再生算子。选择的目的是把优化的个体(或解)直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的，常用的选择算子有以下几种：适应度比例方法、随机遍历抽样法、局部选择法。

当最优个体的适应度达到给定的阈值，或者最优个体的适应度和群体适应度不再上升时，或者迭代次数达到预设的代数时，算法终止。预设的代数一般设置为100-500代。

CFGA—SVM算法：

CFGA—SVM算法的步骤如下：

5)对于使用的分类器要将概述算出的概率大小进行选择：

CFGA—SVM算法计算出来的结果精度比较高，因为这种算法对于适应度数据做出了改变，和原来定义的适应度数据的方法不同，通过一层一层的累计得到适应度数据，适应度数据的设计对于最后结果的求取有很大的影响，运用累积的各个节点适应度的方法，可以很准确的求出来最后结果，这种算法包含的样本越多，求出来的结果精确度越高，因为样本数量越多对于适应度的求取影响因素也就越多，所以综合起来求出来的适应度数据比较高，通过累计的计算方式，样本数量越多，适应度的数值就更准确，同样求出来的最后结果的分类精度也就越高。

Claims

1.远程停复电故障自动诊断方法，其特征在于，具体按照以下步骤实施：

步骤1、采样分析不同停复电故障特征；

步骤2、分类决策树停复电故障溯源模型；

步骤3、决策优化和停复电故障原因分类。

2.根据权利要求1所述的远程停复电故障自动诊断方法，其特征在于，所述步骤1具体如下：

步骤1.1、数据清洗；

步骤1.2、特征编码；

步骤1.3、采用KUS算法对数据进行不平衡处理。

3.根据权利要求2所述的远程停复电故障自动诊断方法，其特征在于，所述步骤1.1具体如下：

1)解决不完整数据：从本数据源推导出来缺失值，使用均值填充或者众数填充或者中值填充的方法补充上缺失的数据；2)错误值的检测：用统计分析的方法识别可能的错误值或异常值，如偏差分析、识别不遵守分布或回归方程的值；

4.根据权利要求3所述的远程停复电故障自动诊断方法，其特征在于，所述步骤1.2具体如下：

5.根据权利要求4所述的远程停复电故障自动诊断方法，其特征在于，所述步骤1.3具体如下：

Q₃＝data['column'].quantile(0.75) (1)

Q₁＝data['column'].quantile(0.25) (2)

IQR＝Q₃-Q₁ (3)

data＝data[(data['column']<Q₃+1.5*IQR)]&data[(data['column']>Q₁-1.5*IQR)]

(4)

式中：y_i,j表示特征字典中样本点；

6.根据权利要求5所述的远程停复电故障自动诊断方法，其特征在于，所述步骤2具体如下：

步骤2.1、特征选择：

评价数据集的纯度用信息熵，计算如式(7)所示：

Ent值越小，该数据集越纯；

信息增益计算如式(8)所示：

提出信息增益率，计算如式(9)所示：

其中：

式中：

步骤2.2、决策树剪枝：

7.根据权利要求6所述的远程停复电故障自动诊断方法，其特征在于，所述步骤3具体如下：

2)对A_i群中每个个体做随机变异操作，i＝0,1,2,...,n，定义一个变异阈值/>每个个体产生一个随机数random，如果该随机数大于阈值，则在个体基因片的第k个随机位置上进行变异，表示为/>

3)将A_i中每个个体的基因分裂为两个子基因片/>与/>对应的子节点个体为/>和/>并产生一个二值分类器/>然后对比这一代的决策树的结构选取下一代的节点种群A_i+1，用公式表示为A_i+1＝select(S_i,λ)；

5)对于使用的分类器要将概述算出的概率大小进行选择：

式中：表示选择分类器的概率；/>表示选择的分类器；表示所有分类器之和；