CN111667108A

CN111667108A - 一种配网抢修时长预测方法

Info

Publication number: CN111667108A
Application number: CN202010475793.8A
Authority: CN
Inventors: 李翀; 付文杰; 刘林青; 段子荷; 李梦宇; 李杰琳
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; State Grid Hebei Energy Technology Service Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; State Grid Hebei Energy Technology Service Co Ltd; Marketing Service Center of State Grid Hebei Electric Power Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-15

Abstract

本发明涉及一种配网抢修时长预测方法，其包括如下步骤：引入客户报修诉求工单文本信息并进行数据预处理，将工单文本中的非结构化数据转换为结构化数据，并通过朴素贝叶斯模型进行分类，筛选真实故障报修工单；依据筛选故障报修工单，获取对应配网抢修数据建立聚类细分模型，确定不同类别的标杆时长区间，划分故障紧急等级；结合用户基本信息，根据细分结果，结合故障发生当日的气象因素建立GBDT回归预测模型，预测新上报抢修工作时长；本发明整个分析过程无需大量人员参与，节约人力财力的同时利用文本挖掘技术将抢修单、投诉工单进行分类，筛选故障报修信息，提高了分析结果的准确性。

Description

一种配网抢修时长预测方法

技术领域

本发明属于配电网领域，具体涉及一种配网抢修时长预测方法。

背景技术

配网故障的发生严重影响电网公司供电可靠性，凭借现有方法能够有效降低故障发生率，但是还不能达到完全避免配网故障的水平。因此，如何提高故障抢修效率引起越来越多的关注，成为急需解决的问题。

现有提升配网抢修效率的方法主要从故障抢修效益、配网自动化、故障应急预案等方面进行研究，对配网抢修时长的研究尚少。但是，配网抢修时长对提高抢修效率起着极其重要的作用，因此，本发明提出一种配网故障抢修时长预警方法。

发明内容

本发明所要解决的技术问题是提供一种配网抢修时长预测方法，以解决当前配网抢修作业效率不高、复电时间不明确，电力用户对电网供电满意度不高的问题，构建基于配网抢修时长的抢修效率提升方法。

本发明所采用的技术方案是：

一种配网抢修时长预测方法，其包括如下步骤：

(1)引入客户报修诉求工单文本信息并进行数据预处理，将工单文本中的非结构化数据转换为结构化数据，并通过朴素贝叶斯模型进行分类，筛选真实故障报修工单；

(2)依据筛选故障报修工单，获取对应配网抢修数据建立聚类细分模型，确定不同类别的标杆时长区间，划分故障紧急等级；

(3)结合用户基本信息，根据细分结果，结合故障发生当日的气象因素建立GBDT回归预测模型，预测新上报抢修工作时长。

进一步的，所述客户报修诉求工单文本信息来源于95598系统受理用户的故障报修单。

进一步的，配网抢修数据的因素包括一级分类、二级分类、三级分类、派工用时、到达现场用时、工单处理时长以及抢修总时长。

进一步的，所述数据预处理基于文本分词的标点符号处理、同义词处理以及停用词处理。

进一步的，利用自然语言处理技术，将工单文本中的非结构化数据转换为结构化数据，所述自然语言技术是基于分词结果，依据工单--主题--分词关系，通过训练生成倾向于同时出现在多个同类型工单文档中的主题，以便进行下一步文本分类。

进一步的，所述朴素贝叶斯模型基于客户工单的主题计算该工单为某一主题内容的概率，通过选定的朴素贝叶斯算法构建分类模型，最终实现给定投诉工单的自动分类。

进一步的，所述聚类细分模型是基于kmeans的快速聚类，随机选取K个对象作为初始的聚类中心，计算每个对象与各个种子聚类中心之间的距离，并把每个对象分配给距离它最近的聚类中心，如此迭代，直至各类中心不发生变化。

进一步的，所述标杆时长区间是分类模型结果中不同故障类别中的置信区间。

进一步的，所述用户基本信息包括用户姓名以及通信联系方式，主要用于及时反馈预测停送电信息。

进一步的，所述GBDT回归预测模型通过迭代预测上次预测值和实际值的残差，构建多个弱学习器CART树，要求模型预测的样本损失尽可能的小，最后结果即是所有预测值之和。

本发明的积极效果为：

1、本发明整个分析过程无需大量人员参与，节约人力财力的同时利用文本挖掘技术将抢修单、投诉工单进行分类，筛选故障报修信息，提高了分析结果的准确性。

2、本发明融合了95598、用采系统以及降雨量、湿度、温度等外部数据，打破数据专业孤岛，使得海量数据得到了有效利用。

3、现有提升配网抢修效率的方法主要从故障抢修效益、配网自动化、故障应急预案等方面进行研究，对配网抢修时长的研究尚少。但是，配网抢修时长对提高抢修效率起着极其重要的作用，本发明从该角度对配网抢修效率提升提出新的方法。

4、本发明配网报修工单进行处理时，制定不同类型的抢修作业设定抢修标杆时长，对比各类抢修作业理论抢修时长，优先抢修时间短的抢修作业，提升配网抢修作业整体效率。

5、本发明将预测抢修作业时长通过通讯方式提供给电力客户，提高了配网抢修透明度，与传统抢修作业相对，提高了客户满意度。

附图说明

图1为本发明文本数据预处理流程图；

图2为本发明实施例工单分词示例表；

图3为本发明实施例轮廓系数随K的变化图；

图4为本发明实施例配网抢修时长真实值与预测值结果对比图；

图5为本发明配网抢修预测短信示意图。

具体实施方式

本发明基于用户报修抢修工单文本数据与配网抢修时长数据，提出了一种配网抢修时长预测方法。本发明首先获取95598系统中的报修单数据，利用LDA主题模型自然语言处理技术实现抢修单文本的快速分类，并筛选故障报修类工单，减轻人工分类的工作量；然后结合配网抢修数据，建立聚类细分模型，细分故障紧急等级，确定不同类别的标杆时长区间，优先抢修标杆时长短的报修工单，优化配网抢修顺序，并对超过该类配网抢修标杆时长的作业进行超时预警，提高故障抢修效率；最后利用用户基本信息，根据细分结果，结合故障发生当日的温度、湿度、降水量等气象因素建立GBDT回归预测模型，预测新上报抢修工作时长，及时为用户提供抢修进度及停送电信息,保证抢修情况的透明度，提升客户满意度。

进一步的，所述客户报修诉求工单文本信息来源于95598系统受理用户的故障报修单，对客户的报修诉求内容主题内容及迫切程度，进行分析汇总，提取出有用的数据，反映真实的客户报修诉求信息。

进一步的，所述配网抢修数据主要反映了改抢修工作的基本状况，包括一级分类、二级分类、三级分类、派工用时、到达现场用时、工单处理时长、抢修总时长等特征。

进一步的，所述数据预处理是基于文本数据的分词，其步骤为：

Step1:引入95598客户系统中的抢修工单；

Step2:利用电力词库，将工单语句分词，变为多个词的组合；

Step3：利用停用词库，将词组合中的大量语气词，符号，无意义生词去掉；

Step4：利用同义词词库，将意思相似的词语合并为一个，最终导出分词结果。

进一步的，所述自然语言技术是基于分词结果，依据TF-IDF是一种常用的加权技术，用于反映某个词或短句在某篇文档的重要性。思想是如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类，其计算公式为：

TF-IDF＝TF(x)*IDF(x)

其中：count(x)表示词x在文本中的个数，count表示该文本总的分词个数。N代表语料库中文本的总数，而N(x)代表语料库中包含词x的文本总数。

进一步的，所述朴素贝叶斯模型基于客户工单的主题计算该工单为某一主题内容的概率，通过选定的朴素贝叶斯算法构建分类模型，最终实现给定投诉工单的自动分类，以便进行工单筛选，其步骤在于：

Step1:建立分类标签集合，本发明中分类标签有12项y₁,y₂,...,y₁₂，如频繁停电、电器损坏、短消息订阅、供电质量等。

Step2:计算各抢修单对应于各分类标签y₁的概率P(y₁|x)。

P(y₁|x)＝P(y₁|x₁)+P(y₁|x₂)+...+P(y₁|x_i)

其中P(y₁|x_i)：抢修单内第i个分词对应第一类分类标签的概率，表示为概率即为分词的特征属性。

将对应于某一个分类标签y₁的概率加总，得到投诉工单x对应于该分类标签y₁的概率。同理可以得到：P(y₂|x),...,P(y₁₂|x)。

Step3:选择概率值最大的P所对应的那个标签y作为投诉工单所属的分类标签。

Step4:通过选定的朴素贝叶斯算法构建分类模型，最终实现给定投诉工单的自动分类。

Step5:基于工单分类结果从中以石家庄为试点筛选出与供电质量、故障报修、停电维修等相关的抢修工单。

进一步的，所述聚类细分模型是基于kmeans的快速聚类。

输入：聚类个数k，故障工单数据D＝{x₁,x₂,...,x_n}；

输出：故障工单细分类别C＝{C₁,C₂,...,C_k}；

Step 1：从故障工单数D中随机选取k个样本作为初始化聚类中心{μ₁,μ₂,...,μ_k}；

Step 2：将D中数据分别与μ₁...μ_k比较，并将其归为离聚类中心最近的一类；

Step 3：重新计算并更新聚类中心；

Step 4：重复步骤Step 2、Step 3，直到聚类中心不再变化为止。

对于聚类个数k的选取，本发明结合平方误差和及轮廓系数进行确定，平方误差和越小、轮廓系数越大表明细分类别越好。

最小化平方误差和计算：

轮廓系数计算：

a^j：类别类内紧凑度；

b^j：类间分离度。类内越紧凑越好，类间分离度越大越好。

进一步的，所述标杆时长区间是分类模型结果中不同故障类别中的置信区间，合理地确定了各故障类别的多数抢修时长，具体表现假设各类故障报修工单抢修作业时长服从高斯模型概率分布：

则置信区间为：【μ-σ,μ+σ】

μ：各类报修工单的抢修作业时长均值

σ：各类报修工单的抢修作业时长标准差

进一步的，所述用户基本信息，主要包括用户姓名以及通信联系方式，主要用于及时反馈预测停送电信息，提升用户满意度。

进一步的，所述GBDT回归通过迭代预测上次预测值和实际值的残差，构建多个弱学习器CART树，要求模型预测的样本损失尽可能的小，最后结果即是所有预测值之和。

输入：训练数据D＝{(x₁,y₁),(x₂,y₂),...,(x_n,y_n)}，最大迭代次数C，损失函数L；

输出：配网抢修时长预测模型f(x)；

Step 1：初始化抢修时长预测学习器f₀(x)；

Step 2：迭代r＝1,2,...,C进行如下操作，直到达到所设置的迭代次数C为止：

Step 2.1：计算各训练样本i＝1,2,...n的负梯度τ_ri；

Step 2.2：基于样本及其对应负梯度(x_i,τ_ri)拟合生成第r棵CART回归树，得到其对应叶节点区域；

Step 2.3：对叶节点区域，计算最佳拟合值c_rj；

Step 2.4：更新抢修时长预测学习模型f_r(x)；

Step 3：得到最终的配网抢修时长预测模型f(x)。

所建预测模型的拟合优度R²越接近1表明所建模型效果越好，本发明通过实证法选取值R²最大时的抢修时长预测模型进行配网抢修时长预测。

本发明的具体工作流程为：

(1)获取客户报修工单数据、配网抢修数据及外部气象数据。

(2)处理保修单文本数据，提取客户报修特征，利用朴素贝叶斯算法筛选故障报修工单。

(3)利用Kmeans聚类细分故障报修类别，确定报修工单细分类别的标杆时长区间。判定各抢修作业所需合理时长，优化各类抢修作业先后顺序，并为超出理论时长的抢修作业提供超时预警。

(4)构建抢修时长回归预测模型，预测配网抢修时长，结合用户基本信息，及时为用户提供停送电信息，提升用户满意度。

实施例

(1)从客户报修工单信息中抽取部分数据，处理并筛选工单。

表1：95598抢修单样例

文本数据预处理其流程为如附图1所示，工单分词示例表如附图2所示。

利用自然语言处理以及朴素贝叶斯算法区分的报修工单类型结果如下：

表2：95598工单样例分类结果

基于工单分类结果，从中选择以石家庄为试点，与供电质量、故障报修、停电维修等相关的抢修工单。并进一步运用kmeans实现报修工单的分类。

(2)细分故障类别

本发明基于故障抢修工单数据，通过K-Means算法建立故障工单细分模型。对于聚类个数K的选取，综合考虑平方误差和及轮廓系数进行确定，图3为轮廓系数随K的变化。

表3轮廓系数随K值变化结果

通过轮廓系数计算，当故障工单细分为五类为最优，细分结果如下：

第一类故障工单：此类故障工单大部分来源于电缆本体、隔离开关、接户线、进户线、漏电保护器、欠费、停限电工作及客户误报等产生的故障；第二类故障工单：此类故障工单大部分来源于低压计量设备中表前开关(熔丝)、导线、低压设备中断路器、低压计量设备中计量表计等产生的故障；第三类故障工单：此类故障工单大部分产生于电杆、电杆(塔)、电缆沟(隧道、井)、端子排、低压架空线路绝缘子等配网设备中；第四类故障工单：此类故障大部分产生于低压架空线路中横担、架空线路中柱上隔离开关、架空线路中柱上断路器、箱(柜)体外壳(除计量)等配网设备中；第五类故障工单：此类故障工单大部分由于高压设备中架空线路的避雷装置、防鸟装置、拉线等及突发事件应对引起。

(3)确定各类故障报修工单的标杆时长区间，制定抢修作业先后顺序，并为超出理论时长的抢修作业提供超时预警。

对于故障报修工单不同细分类别标杆时长区间的确定，本发明基于高斯模型方法，通过各故障类别高斯模型所对应的置信区间确定，依据抢修作业时长，制定各类抢修作业的先后顺序，并对超过标杆时长区间最大值的抢修作业进行预警操作。如表4为各故障报修工单细分类别所对应高斯模型参数及标杆时长区间。

表4各故障工单细分类别对应高斯模型参数及标杆时长区间

由表4分析可得：故障类别一对应的标杆时长区间位于12.62min至26.63min时间范围，故障类别二对应的标杆时长区间位于34.96min至51.66min，故障类别三对应的标杆时长区间位于64.17min至81.17min，故障类别四对应的标杆时长区间位于94.73min至111.97min，故障类别五对应的标杆时长区间位于340.59min至361.97min。

对于不同类别的故障报修工单进行抢修顺序排序，如第一类别中的故障工单抢修时间花费少，在人力资源有限的情况下，可优先抢修该类工单，保障抢修工作整体进度。

对于各故障工单细分类别中超过标杆时长区间最大值的抢修作业进行超时预警，以提高抢修人员工作效率，如：对类别一中超过26.63min的抢修作业做出超时预警。

(4)配网抢修时长预测

根据故障工单细分结果，考虑气象因素对配网抢修时长的影响，基于故障工单记录数据与气象数据，通过GBDT回归算法建立配网抢修时长预测模型，预测抢修时长。

在建立预测模型之前，将数据分为训练集与测试集，其中：

训练样本比例：70％；

测试样本比例：30％；

预测模型参数：树最大深度为3、迭代次数为100、学习率为0.4；

输入：温度、湿度、降水量等气象外部数据抢修类别、类别抢修均值等细分故障类别数据。

输出：配网抢修作业预测时长

为评估本发明所建配网抢修时长预测模型效果好坏，基于测试数据集对本发明所建预测模型进行验证，如图4表示配网抢修时长真实值与预测值结果对比。

由图4分析可得：配网抢修时长预测值在真实值附近上下波动，二者相差不大，表明本发明所建预测模型效果较优。本发明所建模型拟合优度R²接近1，均方误差MSE相对较小，亦表明本发明所建配网抢修时长预测模型效果较优。

该模型可结合新接入抢修工单，预测抢修作业所需时长，方便合理规划安排抢修人员作业时间，缩短故障复电时间，提高抢修效率。并结合客户基本信息，如图5及时为用户提供抢修进度及停送电信息,保证抢修情况的透明度，助力电力用户提前做好停电心理准备，从而客户满意度。

Claims

1.一种配网抢修时长预测方法，其特征在于其包括如下步骤：

引入客户报修诉求工单文本信息并进行数据预处理，将工单文本中的非结构化数据转换为结构化数据，并通过朴素贝叶斯模型进行分类，筛选真实故障报修工单；

依据筛选故障报修工单，获取对应配网抢修数据建立聚类细分模型，确定不同类别的标杆时长区间，划分故障紧急等级；

结合用户基本信息，根据细分结果，结合故障发生当日的气象因素建立GBDT回归预测模型，预测新上报抢修工作时长。

2.根据权利要求1所述的一种配网抢修时长预测方法，其特征在于所述客户报修诉求工单文本信息来源于95598系统受理用户的故障报修单。

3.根据权利要求1所述的一种配网抢修时长预测方法，其特征在于配网抢修数据的因素包括一级分类、二级分类、三级分类、派工用时、到达现场用时、工单处理时长以及抢修总时长。

4.根据权利要求1所述的一种配网抢修时长预测方法，其特征在于所述数据预处理基于文本分词的标点符号处理、同义词处理以及停用词处理。

5.根据权利要求1所述的一种配网抢修时长预测方法，其特征在于利用自然语言处理技术，将工单文本中的非结构化数据转换为结构化数据，所述自然语言技术是基于分词结果，依据工单--主题--分词关系，通过训练生成倾向于同时出现在多个同类型工单文档中的主题，以便进行下一步文本分类。

6.根据权利要求1所述的一种配网抢修时长预测方法，其特征在于所述朴素贝叶斯模型基于客户工单的主题计算该工单为某一主题内容的概率，通过选定的朴素贝叶斯算法构建分类模型，最终实现给定投诉工单的自动分类。

7.根据权利要求1所述的一种配网抢修时长预测方法，其特征在于所述聚类细分模型是基于kmeans的快速聚类，随机选取K个对象作为初始的聚类中心，计算每个对象与各个种子聚类中心之间的距离，并把每个对象分配给距离它最近的聚类中心，如此迭代，直至各类中心不发生变化。

8.根据权利要求1所述的一种配网抢修时长预测方法，其特征在于所述标杆时长区间是分类模型结果中不同故障类别中的置信区间。

9.根据权利要求1所述的一种配网抢修时长预测方法，其特征在于所述用户基本信息包括用户姓名以及通信联系方式，主要用于及时反馈预测停送电信息。

10.根据权利要求1所述的一种配网抢修时长预测方法，其特征在于所述GBDT回归预测模型通过迭代预测上次预测值和实际值的残差，构建多个弱学习器CART树，要求模型预测的样本损失尽可能的小，最后结果即是所有预测值之和。