CN110929918B

CN110929918B - 一种基于CNN和LightGBM的10kV馈线故障预测方法

Info

Publication number: CN110929918B
Application number: CN201911038911.2A
Authority: CN
Inventors: 黄虎; 冯德伦; 范敏; 杨青; 刘亚玲; 苑吉河; 张曦; 彭港; 贾世韬
Original assignee: Chongqing University; State Grid Corp of China SGCC; NangAn Power Supply Co of State Grid Chongqing Electric Power Co Ltd
Current assignee: Chongqing University; State Grid Corp of China SGCC; NangAn Power Supply Co of State Grid Chongqing Electric Power Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-05-02
Anticipated expiration: 2039-10-29
Also published as: CN110929918A

Abstract

本发明公开一种基于CNN和LightGBM的10kV馈线故障预测方法，主要步骤为：1)获取配电网原始数据，对配电网原始数据进行预处理；2)从配电网原始数据中提取特征，构建特征集f{f₁，f₂…f₁₅，f₁₆，L}；L为标签，表示馈线是否发生故障；其中，元素f₁、元素f₂、元素f₃、元素f₄、元素f₅、元素f₆为固有属性特征。元素f₇、元素f₈、元素f₉、元素f₁₀、元素f₁₁、元素f₁₂、元素f₁₃为统计分析特征。元素f₁₄、元素f₁₅、元素f₁₆为卷积神经网络CNN提取的深度时序特征。3)建立配电网故障预测模型；4)将配电网10kV馈线实时数据输入配电网故障预测模型，得到馈线故障预测结果。本发明具有较好的快速性和时效性，预测结果能在满足准确性要求的前提下为配电网运维管理人员提供辅助决策支撑。

Description

一种基于CNN和LightGBM的10kV馈线故障预测方法

技术领域

本发明涉及智能配电网领域，具体是一种基于CNN和LightGBM的10kV馈线故障预测方法。

背景技术

随着现代社会工业化、信息化和智能化水平的不断提高，电能作为二次能源的重要组成部分，不仅在社会发展起着关键作用，也在人民生活中不可替代。电力系统集发电、输电、配电和用电五个环节于一体，网络结构复杂、运行环境多变，近年来分布式电源和充电桩等的接入，也给电力系统带来了不小的压力，电网任何环节发生故障都将对用户造成影响，轻则造成经济损失，重则威胁生命安全。配电网位于电力系统的末端，与用户紧密相连，直接向用户配电和供电，配电网的运行状态将直接影响用户的用电质量。统计结果表明，用户故障停电事件80％以上是由配电网故障导致的。及时准确的掌握配电网的运行状态，实现对配电网故障风险的计算和预测，可以减少配电网故障、提高配电网的供电可靠性和精益化运维水平，对于促进国民经济稳定发展、保障用户的用电质量及提升全社会满意度有着重要意义。

以往，专家学者们对配电网故障风险预测方法的研究多聚焦于风险评估、历史数据分析，以及基于机理建模或智能算法的故障预测等。这些研究成果能在一定程度上预测配电网的故障风险，找出配电网的薄弱环节，提高配电网的供电可靠性，但仍然存在一些不足。配电网的风险评估需要建立风险指标，指标多依赖于专家经验和故障相关静态数据，且量化规则往往采用层次分析法、德菲尔法及模糊评价法等，这导致该法的客观性和实时性较差；配电网历史故障相关数据分析一般使用统计分析、关联分析及多维分析等方法，这些方法能够统计故障发生规律，挖掘故障原因的相关性和自相关性，但快速性、灵活性和可预测性不够；配电网结构复杂,基于机理建模对配电网进行故障预测十分困难，常见机理建模有电力设备的温升模型和油气分析模型等，相对于机理建模，基于数据处理技术运用智能算法对配电网进行故障预测则较为容易，比如回归算法、聚类算法、支持向量机和人工神经网络等，但目前这些算法往往是分别对配电网中单一连续时间变量及多元离散时间变量进行建模，缺乏对配电网时间序列特征和非时间序列特征的融合处理，也缺少对配电网时间序列变量的特征提取方法研究，且随着配电网数据的逐年累积，一些算法已不再适应大规模数据场景。

发明内容

本发明的目的是解决现有技术中存在的问题。

为实现本发明目的而采用的技术方案是这样的，一种基于CNN和LightGBM的10kV馈线故障预测方法，主要包括以下步骤：

1)获取配电网原始数据，并对配电网原始数据进行预处理。

进一步，所述配电网原始数据包括气象数据和配电网信息数据。将配电网原始数据以馈线故障为标准，分为三类，分别表示不同类型馈线故障下x_i年y_i条馈线的原始数据。所述馈线故障包括运行因素引发的故障、设备故障引发的故障和天气因素引发的故障。

进一步，对配电网原始数据进行预处理的步骤如下：

1.1)利用临插补法对配电网原始数据进行补全。

1.2)对配电网原始数据降噪。

2)从配电网原始数据中提取特征，并构建特征集f{f₁，f₂…f₁₅，f₁₆，L}。L为标签，表示馈线是否发生故障。其中，元素f₁、元素f₂、元素f₃、元素f₄、元素f₅、元素f₆为固有属性特征。元素f₇、元素f₈、元素f₉、元素f₁₀、元素f₁₁、元素f₁₂、元素f₁₃为统计分析特征。元素f₁₄、元素f₁₅、元素f₁₆为卷积神经网络CNN提取的深度时序特征。

进一步，配电网原始数据集特征参数包括固有属性特征、统计分析特征和深度时序特征。

所述固有属性特征包括线路性质f₁、线路长度f₂、所属变电站f₃、线路投运时间f₄、线路设备数量f₅和线路设备厂商f₆。

所述统计分析特征包括时间统计特征、气象统计特征和故障自相关性统计特征，其中时间统计特征包括夏季表征参数f₇和周末表征参数f₈。气象统计特征包括一天中气温的最大值f₉、一天中气温最小值f₁₀、湿度的最大值f₁₁和风速最大值f₁₂。故障的自相关特征包括馈线前一周发生故障的次数f₁₃。

进一步，获取深度时序特征的主要步骤如下：

2.1)构建深度时序特征样本集，主要步骤如下：

2.1.1)建立配电网馈线故障时序数据特征集F{A,V,T,H,W}。A为电流，V为电压，T为气温，H为湿度，W为风速。

2.1.2)以滑动窗口方式构建三个深度时序特征样本集，滑动窗口步长分别为d₁、d₂和d₃。

2.2)将滑动窗口内前n天的深度时序特征样本集归一化，建立故障画像。所述故障画像包括不存在故障的正常画像和存在故障的异常画像。正常画像记为0，异常画像记为1。

2.3)建立卷积神经网络CNN。所述卷积神经网络CNN包括输入层、若干隐含层和输出层。

2.4)将三个深度时序特征样本集分别输入到卷积神经网络CNN中，对卷积神经网络CNN进行训练，得到故障画像类别预测概率P₁、故障画像类别预测概率P₂和故障画像类别预测概率P₃。故障画像类别预测概率P₁、故障画像类别预测概率P₂和故障画像类别预测概率P₃分别记为深度时序特征f₁₄、深度时序特征f₁₅和深度时序特征f₁₆。

3)利用LightGBM算法建立配电网故障预测模型。

进一步，建立配电网故障预测模型的主要步骤如下：

3.1)对特征集f进行样本均衡处理，并将均衡样本后的特征集f，将数据集划分为训练样本集和测试样本集，其中，馈线正常为负样本，馈线故障为正样本。

对特征集f进行样本平衡处理的方法为：

3.1.1)确定正样本和负样本的数量。

3.1.2)利用上采样方法对数量少的样本进行随机采样，使正样本和负样本数据均衡。

3.2)利用LightGBM算法建立配电网故障预测模型，并设置配电网故障预测模型参数，包括最大深度max_depth、叶子节点书num_leaves、步长learning_rate、迭代次数n_estimators和早停条件early_stopping_rounds。early_stopping_rounds表示连续n次迭代后配电网故障预测模型误差没有减小，提前终止训练。

3.3)将训练样本集输入到配电网故障预测模型中，完成配电网故障预测模型的训练。

3.4)将测试样本集输入到训练后的配电网故障预测模型中，输出配电网故障预测概率P。

3.5)基于配电网故障预测概率P建立受试者工作特征曲线ROC，并计算特征曲线ROC和坐标轴所围成的面积AUC。判断AUC≥阈值ε是否成立，若成立，则结束迭代，若不成立，则重新设置配电网故障预测模型参数，并返回步骤3.3。

进一步，获取受试者工作特征曲线ROC的主要步骤如下：

3.5.1)建立坐标轴，其中横坐标为误报率FPR，纵坐标为查全率TPR。

误报率FPR如下所示：

式中，TP表示预测概率和真实值均为1。FP表示预测概率为0，真实值为1。FN表示预测概率为1，真实值为0。TN表示预测概率和真实值均为0。

查全率TPR如下所示：

3.5.2)将不同界限值δ输入到配电网故障预测模型中，得到配电网故障预测概率P，δ∈(0,1)。配电网故障预测概率P≥δ时预测结果视为正样本的预测结果，反之，则视为负样本的预测结果；

3.5.3)匹配配电网故障预测结果和验证集真实结果，得到参数TP、参数FP、参数FN和参数TN，并计算得到误报率FPR和查全率TPR，从而得到受试者工作特征曲线ROC的点值。

4)将配电网10kV馈线实时数据输入到配电网故障预测模型中，得到馈线故障预测结果。

本发明的技术效果是毋庸置疑的。在配电网大数据背景下，本发明提出一种基于CNN和LightGBM的10kV馈线故障预测方法。该方法具有较好的快速性和时效性，预测结果能在满足准确性要求的前提下为配电网运维管理人员提供辅助决策支撑。

附图说明

图1为技术路线流程图；

图2为stacking原理图；

图3为时序特征样本集构建流程图；

图4为“故障画像”构建流程图；

图5为卷积神经网络结构；

图6为深度时序特征提取流程图；

图7为故障预测流程图；

图8为Boosting原理图；

图9为三个模型的预测结果。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图8，一种基于CNN和LightGBM的10kV馈线故障预测方法，主要包括以下步骤：

1)获取配电网原始数据，并对配电网原始数据进行预处理。

进一步，所述配电网原始数据包括气象数据和配电网信息数据。将配电网原始数据以馈线故障为标准，分为三类，分别表示不同类型馈线故障下x_i年y_i条馈线的原始数据。所述馈线故障包括运行因素引发的故障、设备故障引发的故障和天气因素引发的故障。本实施例所述馈线均为10kV馈线。

进一步，对配电网原始数据进行预处理的步骤如下：

1.1)利用临插补法对配电网原始数据进行补全。

1.2)对配电网原始数据降噪。

2)从配电网原始数据中提取特征，并构建特征集f{f₁，f₂…f₁₅，f₁₆，L}。L为标签，表示馈线是否发生故障。对每类因素引发的故障进行数据预处理和特征集构建，得到某类因素引发的故障样本集大小为x_i*y_i*365-60。其中，元素f₁、元素f₂、元素f₃、元素f₄、元素f₅、元素f₆为固有属性特征。元素f₇、元素f₈、元素f₉、元素f₁₀、元素f₁₁、元素f₁₂、元素f₁₃为统计分析特征。元素f₁₄、元素f₁₅、元素f₁₆为卷积神经网络CNN提取的深度时序特征。

进一步，获取深度时序特征的主要步骤如下：

2.1)构建深度时序特征样本集，主要步骤如下：

2.3)建立卷积神经网络CNN(Convolutional Neural Networks)。所述卷积神经网络CNN包括输入层、若干隐含层和输出层。

进一步，隐含层包括卷积层、池化层和全连接层。

卷积层的功能是对输入数据进行特征提取。

在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。

卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。

3)利用LightGBM(Light Gradient Boosting Machine,LightGBM，轻量级梯度提升树)算法建立配电网故障预测模型。

进一步，建立配电网故障预测模型的主要步骤如下：

3.1)对特征集f进行样本均衡处理，并将均衡样本后的特征集f，将数据集划分为训练样本集和测试样本集。其中，馈线正常为负样本，馈线故障为正样本。

对特征集f进行样本均衡处理的方法为：

3.1.1)确定正样本和负样本的数量。

ROC曲线下方的面积大小(Area Under Curve，AUC)度量了算法的好坏，曲线越靠近左上角，AUC越大，分类效果越好。对于一个二分类任务，将样本分为正样本和负样本，其混淆矩阵如表1所示。

表1二分类任务混淆矩阵

查准率(Precision)是正确预测为正例的样本数占全部预测为正例的样本数的比例，即：

进一步，获取受试者工作特征曲线ROC的主要步骤如下：

表示预测为正但实际为负的样本占所有负例样本的比例的误报率FPR如下所示：

表示正确预测为正例的样本数占实际全部正样本数的比例的查全率TPR如下所示：

3.5.3)匹配配电网故障预测结果和验证集真实结果，得到参数TP、参数FP、参数FN和参数TN，并计算得到误报率FPR和查全率TPR，从而得到受试者工作特征曲线ROC的点值。配电网故障预测概率P≥δ时视预测结果为正例，反之，则视为负例。

ROC曲线上最靠近左上角的点是分类错误最少的位置，该处的界限值即为最好阈值，ROC曲线下方的面积大小AUC度量了算法的好坏，曲线越靠近左上角，AUC越大，分类效果越好。

实施例2：

一种基于CNN和LightGBM的10kV馈线故障预测方法，主要包括以下步骤：

1)获取配电网原始数据，并对配电网原始数据进行预处理。

2)从配电网原始数据中提取特征，并构建特征集f{f₁，f₂…f₁₅，f₁₆，L}；L为标签，表示馈线是否发生故障。其中，元素f₁、元素f₂、元素f₃、元素f₄、元素f₅、元素f₆为固有属性特征。元素f₇、元素f₈、元素f₉、元素f₁₀、元素f₁₁、元素f₁₂、元素f₁₃为统计分析特征。元素f₁₄、元素f₁₅、元素f₁₆为卷积神经网络CNN提取的深度时序特征。

3)利用LightGBM算法建立配电网故障预测模型。

实施例3：

一种基于CNN和LightGBM的10kV馈线故障预测方法，主要步骤见实施例2，其中，配电网原始数据集特征参数包括固有属性特征、统计分析特征和深度时序特征。

进一步，获取深度时序特征的主要步骤如下：

1)构建深度时序特征样本集，主要步骤如下：

1.1)建立配电网馈线故障时序数据特征集F{A,V,T,H,W}。A为电流，V为电压，T为气温，H为湿度，W为风速。

1.2)以滑动窗口方式构建三个深度时序特征样本集，滑动窗口步长分别为d₁、d₂和d₃。

2)将滑动窗口内前n天的深度时序特征样本集归一化，建立故障画像。所述故障画像包括不存在故障的正常画像和存在故障的异常画像。正常画像记为0，异常画像记为1。

3)建立卷积神经网络CNN。所述卷积神经网络CNN包括输入层、若干隐含层和输出层。

4)将三个深度时序特征样本集分别输入到卷积神经网络CNN中，对卷积神经网络CNN进行训练，得到故障画像类别预测概率P₁、故障画像类别预测概率P₂和故障画像类别预测概率P₃。故障画像类别预测概率P₁、故障画像类别预测概率P₂和故障画像类别预测概率P₃分别记为深度时序特征f₁₄、深度时序特征f₁₅和深度时序特征f₁₆。

实施例4：

一种基于CNN和LightGBM的10kV馈线故障预测方法，主要步骤见实施例2，其中，建立配电网故障预测模型的主要步骤如下：

1)对特征集f进行样本均衡处理，并将均衡样本后的特征集f划分为训练样本集和测试样本集。其中，馈线正常为负样本，馈线故障为正样本。

对特征集f进行样本均衡处理的方法为：

1.1)确定正样本和负样本的数量。

1.2)利用上采样方法对数量少的样本进行随机采样，使正样本和负样本数据均衡。

2)利用LightGBM算法建立配电网故障预测模型，并设置配电网故障预测模型参数，包括最大深度max_depth、叶子节点书num_leaves、步长learning_rate、迭代次数n_estimators和early_stopping_rounds。early_stopping_rounds表示连续n次迭代后配电网故障预测模型误差没有减小，提前终止训练。

3)将训练样本集输入到配电网故障预测模型中，完成配电网故障预测模型的训练。

4)将测试样本集输入到训练后的配电网故障预测模型中，输出配电网故障预测概率P。

5)基于配电网故障预测概率P建立受试者工作特征曲线ROC，并计算特征曲线ROC和坐标轴所围成的面积AUC。判断AUC≥阈值ε是否成立，若成立，则结束迭代，若不成立，则重新设置配电网故障预测模型参数，并返回步骤3。

进一步，获取受试者工作特征曲线ROC的主要步骤如下：

5.1)建立坐标轴，其中横坐标为误报率FPR，纵坐标为查全率TPR。

误报率FPR如下所示：

查全率TPR如下所示：

5.2)将不同界限值δ输入到配电网故障预测模型中，得到配电网故障预测概率P，δ∈(0,1)。配电网故障预测概率P≥δ时视预测结果为正样本的预测结果，反之，则视为负样本的预测结果；

5.3)匹配配电网故障预测结果和验证集真实结果，得到参数TP、参数FP、参数FN和参数TN，并计算得到误报率FPR和查全率TPR，从而得到受试者工作特征曲线ROC的点值。配电网故障预测概率P≥δ时视预测结果为正例，反之，则视为负例。

实施例5：

参见图9，一种验证基于CNN和LightGBM的10kV馈线故障预测方法的实验，主要步骤如下：

1)数据获取，从配电网内部的各信息管理系统和外部的气象系统中获取本发明建模所需要的数据，由于本发明方法是基于数据驱动的建模，数据量越大将有助于模型的精度提升，则实际中可视情况多获取几年数据。本发明以某地区供电局2016.1.1-2018.12.31共3年353条馈线为例，采集上述线路主要由设备因素引发的配电网故障相关数据进行说明，具体数据如表2所示。

表2数据详细情况

2)数据预处理，由于配电网时序数据一般不突变，具有较为稳定的变化趋势，而一些固定数据则无规律可循，因此在本发明中采用最近临插补法对时序数据缺失值进行补全，即根据在缺失数据在时间前后位置的值对缺失部分进行插补，插补的值为前后数据的中值。对于固定数据的缺失值则不作处理，视为一种特殊类型的值。

3)特征工程，本发明将10kV馈线的特征归纳为固有属性特征、统计分析特征和深度时序特征，将这些特征进行融合构造特征集。

3.1)固有属性特征，馈线的固有属性主要有线路性质f₁、线路长度f₂、所属变电站f₃、线路投运时间f₄、线路主要设备数量f₅和线路主要设备厂商f₆。

3.2)统计分析特征，馈线的统计特征是由与故障发生相关的其他因素经统计分析得到，包括时间统计特征、气象统计特征和故障自相关性统计特征。主要特征为是否为夏季f₇，是否为周末f₈；气象统计特征是一天中气温的最大值f₉，一天中气温最小值f₁₀、湿度的最大值f₁₁和风速最大值f₁₂；故障的自相关特征是馈线前一周发生故障的次数f₁₃。

3.3)深度时序特征，基于stacking思想，如图2所示，将时序数据按不同时间步长(n＝7,30,60天)设计不同的样本集，然后搭建CNN，进行有监督学习，将CNN的输出结果作为提取到的故障时序特征，用于训练故障预测模型。图2中，data set表示数据集，classifier表示分类器。

3.3.1)深度时序特征的样本构建，配电网10kV馈线故障的时序数据有电流A、电压V、气温T、湿度H和风速W，共五维数据构成特征集F{A,V,T,H,W}，根据故障的统计特征分析和时序数据对故障的作用规律，在时间上按照短期(n＝7天)、中长期(n＝30天)和长期(n＝60天)以滑动窗口的形式方式对时序特征样本集进行构建，样本构建过程如图3所示。

3.3.2)“故障画像”构建，五维数据构成特征集F{A,V,T,H,W}以每天24个整点进行保存，将滑动窗口内前n(n＝7,30,60天)天的24个整点的五维时序数据归一化之后用于构建对应于考察日的“故障画像”。本发明以n为7为例进行说明，A_d0代表d天0点时刻的电流值，A_d23代表d天23时刻的电流值，对其进行最大最小归一化处理：

其中A_dxnorm代表d天x时刻归一化后的电流值，A_dx代表d天x时刻的电流值，A_dmin代表d天电流最小值，A_dmax代表d天电流最大值，A_(d+1)0代表d+1天0时刻的电流值，以此类推对V,T,H,W进行归一化处理，构造的故障画像如图4所示，每个故障画像大小为35*24。“故障画像”有两种，一种是对应于不发生故障的正常画像即d+n+1天未发生故障，标记为0；另一种是对应于发生故障的异常画像即d+n+1天发生故障，标记为1。数据为2016.1.1-2018.12.31共3年353条线路的时序数据，经过处理后得到时间步长为7的共3*365*353-7个故障画像。

3.3.3)特征学习，根据上步构建的3个不同时间步长(n＝7,30,60天)的样本集，每个样本集分别搭建图5所示卷积神经网络进行训练训练的目的是使CNN网络能比较正确的识别两类“故障画像”，并给出预测概率值(概率值∈[0,1])，将这些概率作为所提取的深度时序特征，分别为f₁₄，f₁₅，f₁₆提取流程图如图6所示。同样以n为7为例进行说明，共3*365*353-7个样本，每个样本为35*24大小，第一个卷积层和池化层含有32个特征面，第二个卷积层和池化层含有64个特征面，卷积层的滑动窗口大小为3*3，步长设置为1*1,卷积层的滑动窗口大小为2*2，步长设置为2*1。根池化方式均采用最大值池化。根据二分类任务特点，CNN的全连接层采用Sigmoid函，

输出结果为配电网某馈线某日发生故障的概率，作为n＝7时所提取的深度时序特征。

3.4样本构建，配电网馈线的固有属性特征、统计分析特征和深度时序特征构成了故障样本的特征集，馈线是否故障作为样本的标签，与特征集一起构成了配电网故障的样本集。所有数据特征构成一条数据样本为f{f₁,f₂…f₁₅,f₁₆，L}，其中L为标签，表示馈线是否发生故障，最终的样本集为大小为3*353*365-60。

4)模型构建与训练，将构造好的特征集采用LightGBM模型进行训练，得到最终的线路故障概率。

4.1)样本集构建与划分，将样本集划分为训练集和测试集，训练集占总样本集的80％，其余为测试集。对训练集样出现正负样本不平衡的情况，采用上采样从少数类的样本中进行随机采样来增加新的样本，形成正负样本平衡的样本集，最终正负样本比例控制在50：1，再将测试集按4:1划分为训练集和验证集用于训练和验证模型的性能。

4.2)模型构建与训练，本发明采用LightGBM建立配电网10kV馈线故障预测模型的流程如图7所示，LightGBM是基于提升思想(Boosting)的决策树梯度提升集成算法，其算法过程如图8所示根据权重向量D_i得到子集S_i，D_i由上一个弱分类器h_i-1的训练结果决，各弱分类器顺序生成、相互依赖，通过提高错分样本的权重来减少误差。对LightGBM主要参数max_depth、num_leaves、learning_rate、n_estimators和early_stopping_rounds进行设置，P为故障预测模型最终的输出值。

4.3)模型验证与评价，使用事先划分好的测试集验证模型效果，评价效果使用ROC曲线，ROC曲线下方的面积AUC度量了算法的好坏，曲线越靠近左上角，AUC越大，分类效果越好。

4.4)模型优化，采用网格搜索算法对各LightGBM的主要参数进行最优搜索，选择最优参数组合，使ROC曲线下AUC的面积尽可能达到最大值，达到对模型进行优化的效果，并选择最优区别正负例预测概率阈值。由设备因素引发的馈线故障预测模型参数设置如表3所示。

表3设备因素故障LightGBM预测模型主要参数设置情况

根据ROC曲线上最靠近左上角的点是分类错误最少的位置，选择该模型判断是否发生故障的预测概率阈值为0.69，即若预测概率大于等于0.69则视为该线路将发生故障，若预测值小于0.69则视为该线路不会发生故障，至此，由设备因素引发的馈线故障预测模型建立完备。

将某地区天气因素引发的故障共3年210条馈线的故障相关数据，运行因素引发的故障共3年32条馈线故障相关的数据分别代入上述步骤，得到各自的预测模型，其模型参数设置如表4所示，并用划分的测试集验证模型效果。三个模型阈值选择情况与模型TPR，FPR，Percision如表5所示，最终预测结果如图9所示。图9中蓝色虚线为对角线。

表4 LightGBM的主要参数设置情况

表5模型最好阈值及该处的查全率率、误报率和查准率

Claims

1.一种基于CNN和LightGBM的10kV馈线故障预测方法，其特征在于，主要包括以下步骤：

1）获取配电网原始数据，并对配电网原始数据进行预处理；

2）从配电网原始数据中提取特征，并构建特征集f{f ₁，f ₂…f ₁₅， f ₁₆，L}；L为标签，表示馈线是否发生故障；其中，元素f ₁、元素f ₂、元素f ₃、元素f ₄、元素f ₅、元素f ₆为固有属性特征；元素f ₇、元素f ₈、元素f ₉、元素f ₁₀、元素f ₁₁、元素f ₁₂、元素f ₁₃为统计分析特征；元素f ₁₄、元素f ₁₅、元素f ₁₆为卷积神经网络CNN提取的深度时序特征；

配电网原始数据集特征参数包括固有属性特征、统计分析特征和深度时序特征；

所述固有属性特征包括线路性质f ₁、线路长度f ₂、所属变电站f ₃、线路投运时间f ₄、线路设备数量f ₅和线路设备厂商f ₆；

所述统计分析特征包括时间统计特征、气象统计特征和故障自相关性统计特征，其中时间统计特征包括夏季表征参数f ₇和周末表征参数f ₈；气象统计特征包括一天中气温的最大值f ₉、一天中气温最小值f ₁₀、湿度的最大值f ₁₁和风速最大值f ₁₂；故障的自相关特征包括馈线前一周发生故障的次数f ₁₃；

获取深度时序特征的主要步骤如下：

2.1）构建深度时序特征样本集，主要步骤如下：

2.1.1）建立配电网馈线故障时序数据特征集F{A,V,T,H,W}；A为电流，V为电压，T为气温，H为湿度，W为风速；

2.1.2）在时间上按照短期、中长期和长期以滑动窗口方式构建三个深度时序特征样本集，滑动窗口步长分别为d ₁、d ₂和d ₃；

2.2）将滑动窗口内前n天的深度时序特征样本集归一化，建立故障画像；所述故障画像包括不存在故障的正常画像和存在故障的异常画像；正常画像记为0，异常画像记为1；

2.3）建立卷积神经网络CNN；所述卷积神经网络CNN包括输入层、若干隐含层和输出层；

2.4）将三个深度时序特征样本集分别输入到卷积神经网络CNN中，对卷积神经网络CNN进行训练，得到故障画像类别预测概率P ₁、故障画像类别预测概率P ₂和故障画像类别预测概率P ₃；故障画像类别预测概率P ₁、故障画像类别预测概率P ₂和故障画像类别预测概率P ₃分别记为深度时序特征f ₁₄、深度时序特征f ₁₅和深度时序特征f ₁₆；

3）利用LightGBM算法建立配电网故障预测模型；

4）将配电网10kV馈线实时数据输入到配电网故障预测模型中，得到馈线故障预测结果。

2.根据权利要求1所述的一种基于CNN和LightGBM的10kV馈线故障预测方法，其特征在于：所述配电网原始数据包括气象数据和配电网信息数据；将配电网原始数据以馈线故障为标准，分为三类，分别表示不同类型馈线故障下x _i年y _i条馈线的原始数据；所述馈线故障包括运行因素引发的故障、设备故障引发的故障和天气因素引发的故障。

3.根据权利要求1所述的一种基于CNN和LightGBM的10kV馈线故障预测方法，其特征在于，对配电网原始数据进行预处理的步骤如下：

1.1）利用临插补法对配电网原始数据进行补全；

1.2）对配电网原始数据降噪。

4.根据权利要求1所述的一种基于CNN和LightGBM的10kV馈线故障预测方法，其特征在于：建立配电网故障预测模型的主要步骤如下：

3.1）对特征集f进行样本均衡处理，并将均衡样本后的特征集f划分为训练样本集和测试样本集；其中，馈线正常为负样本，馈线故障为正样本；正样本结果记为1，负样本结果记为0；

3.2）利用LightGBM算法建立配电网故障预测模型，并设置配电网故障预测模型参数，包括最大深度max_depth、叶子节点书num_leaves、步长learning_rate、迭代次数n_ estimators和early_stopping_rounds；early_stopping_rounds表示连续n次迭代后配电网故障预测模型误差没有减小，提前终止训练；

3.3）将训练样本集输入到配电网故障预测模型中，完成配电网故障预测模型的训练；

3.4）将测试样本集输入到训练后的配电网故障预测模型中，输出配电网故障预测概率P；

3.5）基于配电网故障预测概率P建立受试者工作特征曲线ROC，并计算特征曲线ROC和坐标轴所围成的面积AUC；判断AUC≥阈值是否成立，若成立，则结束迭代，若不成立，则重新设置配电网故障预测模型参数，并返回步骤3.3）。

5.根据权利要求4所述的一种基于CNN和LightGBM的10kV馈线故障预测方法，其特征在于，获取受试者工作特征曲线ROC的主要步骤如下：

3.5.1）建立坐标轴，其中横坐标为误报率FPR，纵坐标为查全率TPR；

误报率FPR如下所示：

（1）

式中，TP表示预测结果和真实值均为1；FP表示预测概率为0，真实值为1；FN表示预测概率为1，真实值为0；TN表示预测概率和真实值均为0；

查全率TPR如下所示：

（2）

3.5.2）将不同界限值δ输入到配电网故障预测模型中，得到配电网故障预测概率P；δϵ(0,1)；配电网故障预测概率P≥δ时视预测结果为正样本的预测结果，反之，则视为负样本的预测结果；

3.5.3）匹配配电网故障预测结果和验证集真实结果，得到参数TP、参数FP、参数FN和参数TN的值，并计算得到误报率FPR和查全率TPR，从而得到受试者工作特征曲线ROC的点值。

6.根据权利要求4所述的一种基于CNN和LightGBM的10kV馈线故障预测方法，其特征在于，对特征集f进行样本均衡处理的方法为：

3.1.1）确定正样本和负样本的数量；

3.1.2）利用上采样方法对数量少的样本进行随机采样，使正样本和负样本数据均衡。