CN107220732B - 一种基于梯度提升树的停电投诉风险预测方法 - Google Patents

一种基于梯度提升树的停电投诉风险预测方法 Download PDF

Info

Publication number
CN107220732B
CN107220732B CN201710399158.4A CN201710399158A CN107220732B CN 107220732 B CN107220732 B CN 107220732B CN 201710399158 A CN201710399158 A CN 201710399158A CN 107220732 B CN107220732 B CN 107220732B
Authority
CN
China
Prior art keywords
power failure
value
user
canopy
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710399158.4A
Other languages
English (en)
Other versions
CN107220732A (zh
Inventor
陈羽中
郭昆
郭文忠
陈培坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201710399158.4A priority Critical patent/CN107220732B/zh
Publication of CN107220732A publication Critical patent/CN107220732A/zh
Application granted granted Critical
Publication of CN107220732B publication Critical patent/CN107220732B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于梯度提升树的停电投诉风险预测方法,包括以下步骤:步骤A:建立用户用电信息表;步骤B:对用户用电信息表中的用户用电信息数据集进行预处理;步骤C:采用Canopy算法、KMeans算法对用户用电信息数据集进行聚类,通过客户画像分析对用户用电信息数据集进行敏感类别标记,然后通过基于SPARK的SMOTE过采样算法对不平衡分布的用户用电信息数据集进行数据处理;步骤D:对用户用电信息数据集进行梯度提升树的训练,得到停电投诉风险模型;步骤E:利用停电投诉风险模型,预测用户的停电敏感类别。该方法有利于准确判别不同用户对停电的敏感程度,以采取不同的安抚和引导策略,减少用户的停电投诉量。

Description

一种基于梯度提升树的停电投诉风险预测方法
技术领域
本发明涉及停电投诉风险预测技术领域,特别是一种基于梯度提升树(Gradient-boosted trees)的停电投诉风险预测方法。
背景技术
当前,包括企业、个人等各类客户对于供电服务品质的期望值不断提高,对服务品质提出了更高的要求。而在现有技术中,供电企业大多无法对不同用户的停电敏感类型进行划分,以根据不同用户对停电的敏感程度采取不同的安抚和引导策略,从而带来大量的停电投诉,对企业形象造成负面影响,给企业的正常运营造成困扰,甚至衍生各类法律纠纷。
发明内容
本发明的目的在于提供一种基于梯度提升树的停电投诉风险预测方法,该方法有利于准确判别不同用户对停电的敏感程度,以据此采取不同的安抚和引导策略,减少用户的停电投诉量。
为实现上述目的,本发明的技术方案是:一种基于梯度提升树的停电投诉风险预测方法,包括以下步骤:
步骤A:建立用户用电信息表,用户用电信息表中包括用户信息、停电信息以及用户停电投诉信息;
步骤B:对用户用电信息表中的用户用电信息数据集进行预处理;
步骤C:采用Canopy算法、KMeans算法对用户用电信息数据集进行聚类,通过客户画像分析对用户用电信息数据集进行敏感类别标记,然后通过基于SPARK的SMOTE过采样算法对不平衡分布的用户用电信息数据集进行数据处理,以提高分类准确性;
步骤D:对步骤C处理后的用户用电信息数据集进行梯度提升树的训练,得到停电投诉风险模型;
步骤E:运行步骤D得到的停电投诉风险模型,预测用户的停电敏感类别。
进一步的,步骤B中对用户用电信息表中的用户用电信息数据集进行预处理,具体包括以下步骤:
步骤B1:进行数据填充,在整个模型输入宽表中,对于枚举类型字段,采用默认值填充方式,即分别填充一个预先设定的默认类别;对于数值型字段,采用平均值填充法或零值填充法;
步骤B2:进行异常值处理,对于异常值所占比例小于设定值的字段,采用直接删除含异常值记录的方法;对于异常值所占比例大于设定值的字段,采用基于箱型图的异常值检测方法;
步骤B3:进行规范化处理,对于数值型字段,进行区间规范化,即根据公式(1)将数值归一化到[0,1]区间;对于取值全为0的特征项,不对该特征规范化,即保持原始值0;
Figure 100002_DEST_PATH_IMAGE002
(1)
其中V norm 为规范化处理结果,V initial 为特征原始值,V min为该特征项的最小值,V max为最大值;
步骤B4:进行连续属性离散化,采用等宽法将具有连续属性的字段进行离散化,分为多个类别,即将连续属性的值域根据数据特点或设定分成具有相同宽度的区间,以便于类别分析。
进一步的,步骤C中对用户用电信息数据集进行聚类和敏感类别标记,以及对不平衡分布的训练集数据进行处理,具体包括以下步骤:
步骤C1:采用Canopy算法完成簇数K及初始簇中心的估计;
步骤C2:基于步骤C1确定的簇数K和初始簇中心,采用KMeans算法寻找簇中心直至其达至稳定实现对象的划分;
步骤C3:通过上述步骤的聚类得到K个客户群体,然后进行客户画像分析,根据用户的行业类别、客户类别、用电类型、行政区域、月均电量进行业务特征刻画,以反映不同客户群体的特征差别;根据客户画像分析的结果,对不同客户群体进行敏感类别的标记;
步骤C4:采用SMOTE过采样算法按如下步骤对不平衡分布的训练集数据进行处理:
C41:对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集S_Min中所有样本的距离,得到其k近邻;
C42:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为
Figure 100002_DEST_PATH_IMAGE004
C43:对于每一个随机选出的近邻
Figure 768978DEST_PATH_IMAGE004
,分别与原样本x按照公式(2)构建新的样本x new
Figure 100002_DEST_PATH_IMAGE006
(2)
其中,rand(0,1)表示随机取0到1之间的一个值。
进一步的,步骤D中进行梯度提升树的训练以得到停电投诉风险模型,具体包括以下步骤:
步骤D1:初始化回归树,其为只有一个根节点的树,估计使损失函数极小化的常数值;
步骤D2:对回归树进行迭代更新;
步骤D21:计算损失函数的负梯度在当前模型的值,将其作为残差的估计;
步骤D22:估计回归树叶节点区域,以拟合残差的近似值;
步骤D23:利用线性搜索估计叶节点区域的值,使损失函数极小化;
步骤D24:更新回归树;
步骤D3 :得到停电投诉风险模型 f(x);
其中,对于给定的处理后的用电信息数据训练集S和其特征维数F,设定梯度提升树的相关参数:最大迭代次数maxIter,树的最大深度maxDepth,用于训练模型的子样本占整个样本集合的比例subsamplingRate;连续型特征离散化数量maxBins,节点上最少样本数minInstancesPerNode和节点上最少的信息增益minInfoGain等;完成参数设置后,进行上述梯度提升树的训练,得到训练模型f(x)作为停电投诉风险模型。
本发明的有益效果是提供了一种基于梯度提升树的停电投诉风险预测方法,该方法结合聚类和客户画像分析,对用户用电信息数据集进行梯度提升树的训练,然后基于训练得到的停电投诉风险模型预测不同用户的停电敏感类型和停电投诉风险,从而可以根据不同用户的敏感程度采取不同的安抚和引导策略,提高对电力用户的服务质量,减少用户的停电投诉量,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中基于箱型图的异常值检测的流程图。
图3是本发明实施例中Canopy算法的实现流程图。
图4是本发明实施例中KMeans算法的实现流程图。
图5是本发明实施例中SMOTE算法的实现流程图。
图6是本发明实施例中进行梯度提升树训练的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明基于梯度提升树的停电投诉风险预测方法,如图1所示,包括模型训练和模型预测两个过程,具体包括以下步骤:
步骤A:建立用户用电信息表,用户用电信息表中包括用户信息、停电信息以及用户停电投诉信息。
步骤B:对用户用电信息表中的用户用电信息数据集进行预处理,具体包括以下步骤:
步骤B1:进行数据填充,在整个模型输入宽表中,对于枚举类型字段,采用默认值填充方式,即分别填充一个预先设定的默认类别;对于数值型字段,采用平均值填充法或零值填充法。
步骤B2:进行异常值处理,对于异常值所占比例小于设定值的字段,采用直接删除含异常值记录的方法;对于异常值所占比例大于设定值的字段,采用基于箱型图的异常值检测方法。
数据收集的过程中难免会产生噪音数据,噪音数据中不可避免的存在一些异常数据需要处理。对于异常值所占比例小于设定值的字段,采用直接删除含异常值记录的方法;对于异常值所占比例大于设定值的字段,采用基于箱型图的异常值检测方法;如图2所示,箱型图判断异常值主要以四分位数和其间的位距为基础;异常值被定义为小于QL-1.5IQR或大于QU+1.5IQR的值,QL为下四分位数,QU为上四分位数,IQR为上下四分位数的间距,其区间包含了观测值的一半;四分位数具有一定的健壮性,不在四分位区间内的数可以变得任意远,不会对四分位数造成太大影响;因此,箱线图识别异常值的结果比较客观,具有一定优越性。
步骤B3:进行规范化处理,对于数值型字段,如停电次数、本月电量、投诉、报修、咨询、意见诉求量等数值,进行区间规范化,即根据公式(1)将数值归一化到[0,1]区间;对于取值全为0的特征项,不对该特征规范化,即保持原始值0。
Figure DEST_PATH_IMAGE007
(1)
其中V norm 为规范化处理结果,V initial 为特征原始值,V min为该特征项的最小值,V max为最大值;
如本月用电量字段等可能普遍是以百位数,千位数的数值居多,而停电或者投诉次数等字段以个位数、十位数的数值居多,对此进行特征规范化处理,将数据按比例进行缩放,使之落入一个特定的区域,便于综合分析。
步骤B4:进行连续属性离散化,采用等宽法将具有连续属性的字段(即用实数表示的字段,非离散值)进行离散化,分为多个类别,即将连续属性的值域根据数据特点或设定分成具有相同宽度的区间,以便于类别分析。
其中等宽法就是将连续属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定,或者由设计者设定。
步骤C:采用Canopy算法、KMeans算法对用户用电信息数据集进行聚类,通过客户画像分析对用户用电信息数据集进行敏感类别标记,然后通过基于SPARK的SMOTE过采样算法对不平衡分布的用户用电信息数据集进行数据处理,以提高分类准确性。具体包括以下步骤:
步骤C1:采用Canopy算法完成簇数K及初始簇中心的估计。
其中Canopy算法是一种聚类算法,依据参数T1和T2实现对象的粗略划分;图3显示本发明中Canopy算法的运行过程:首先,将所有对象加入候选集;然后,每次从候选集中取出一个对象,计算它的所有Canopy的距离(第一个对象自动成为Canopy),若它与某个Canopy的距离小于T1,则将其加入该Canopy(图中实线圈);若它与某个Canopy的距离还小于T2,则认为它们太接近了,不再考虑其作为Canopy的可能性,从候选集中删除这个对象(图中虚线圈);算法迭代运行至所有对象都加入某个Canopy;最后,计算Canopy的数量即为簇数K的估计值,而每个Canopy中对象的均值即为初始簇中心。
步骤C2:基于步骤C1确定的簇数K和初始簇中心,采用KMeans算法寻找簇中心直至其达至稳定实现对象的划分。图4显示本发明中KMeans算法的运行过程:首先选择K个簇中心,然后在每次迭代时将对象划分至最相似的簇中心,形成新的簇划分后再计算同簇对象的均值作为新的簇中心;这个过程反复进行,直至簇中心不再变动或达到最大迭代次数为止。
步骤C3:通过上述步骤的聚类得到K个客户群体,然后进行客户画像分析,根据用户的行业类别、客户类别、用电类型、行政区域、月均电量进行业务特征刻画,以反映不同客户群体的特征差别;根据客户画像分析的结果,对不同客户群体进行敏感类别的标记。
步骤C4:采用SMOTE过采样算法按如下步骤对不平衡分布的训练集数据进行处理;由于数据类别是依靠聚类结果得到,存在数据不平衡分布的情况,造成了分类器在多数类的分类精度较高而在少数类的分类精度很低。因此,本发明实现了一个基于SPARK的并行SMOTE合成少数过采样算法。如图5所示,SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。采用SMOTE过采样算法对不平衡分布的训练集数据进行处理的流程步骤如下:
C41:对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集S_Min中所有样本的距离,得到其k近邻;
C42:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为
Figure 594108DEST_PATH_IMAGE004
C43:对于每一个随机选出的近邻
Figure 905004DEST_PATH_IMAGE004
,分别与原样本x按照公式(2)构建新的样本x new
Figure 245419DEST_PATH_IMAGE006
(2)
其中,rand(0,1)表示随机取0到1之间的一个值。
步骤D:对步骤C处理后的用户用电信息数据集进行梯度提升树的训练。如图6所示,具体包括以下步骤:
步骤D1:初始化回归树,其为只有一个根节点的树,估计使损失函数极小化的常数值;
步骤D2:对回归树进行迭代更新;
步骤D21:计算损失函数的负梯度在当前模型的值,将其作为残差的估计;
步骤D22:估计回归树叶节点区域,以拟合残差的近似值;
步骤D23:利用线性搜索估计叶节点区域的值,使损失函数极小化;
步骤D24:更新回归树;
步骤D3 :得到最终的停电投诉风险模型f(x)。
其中,对于给定的处理后的用电信息数据训练集S和其特征维数F,设定梯度提升树的相关参数:最大迭代次数maxIter,树的最大深度maxDepth,用于训练模型的子样本占整个样本集合的比例subsamplingRate;连续型特征离散化数量maxBins,节点上最少样本数minInstancesPerNode和节点上最少的信息增益minInfoGain等;完成参数设置后,进行上述梯度提升树的训练,得到训练模型f(x)作为停电投诉风险模型。
梯度提升树是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案;该算法具有较强的泛化能力,可以发现多种有区分性的特征以及特征组合;业界中,Facebook使用其来自动发现有效的特征、特征组合,来作为LR模型中的特征,以提高 CTR预估(Click-Through Rate Prediction)的准确性;在淘宝的搜索及预测业务上,梯度提升树也发挥了重要作用。
步骤E:利用运行步骤D得到的停电投诉风险模型,预测用户的停电敏感类别。
对于给定的需要预测的新的用户用电信息数据集T,将其作为步骤D所生成的停电投诉风险模型的输入,进行类别预测,输出预测结果的结构如表1所示。
Figure DEST_PATH_IMAGE009
预测得到的敏感类别标识用户所属于的客户群体,结合步骤C中的客户画像分析对不同客户群体特征差别的刻画,分析用户对停电的敏感类型和用户停电投诉的风险,有利于制定相应安抚和引导策略来提高电力客户服务质量,降低客户停电投诉量。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (2)

1.一种基于梯度提升树的停电投诉风险预测方法,其特征在于,包括以下步骤:
步骤A:建立用户用电信息表,用户用电信息表中包括用户信息、停电信息以及用户停电投诉信息;
步骤B:对用户用电信息表中的用户用电信息数据集进行预处理;
步骤C:采用Canopy算法、KMeans算法对用户用电信息数据集进行聚类,通过客户画像分析对用户用电信息数据集进行敏感类别标记,然后通过基于SPARK的SMOTE过采样算法对不平衡分布的用户用电信息数据集进行数据处理,以提高分类准确性;
步骤D:对步骤C处理后的用户用电信息数据集进行梯度提升树的训练,得到停电投诉风险模型;
步骤E:运行步骤D得到的停电投诉风险模型,预测用户的停电敏感类别;
步骤B中对用户用电信息表中的用户用电信息数据集进行预处理,具体包括以下步骤:
步骤B1:进行数据填充,在整个模型输入宽表中,对于枚举类型字段,采用默认值填充方式,即分别填充一个预先设定的默认类别;对于数值型字段,采用平均值填充法或零值填充法;
步骤B2:进行异常值处理,对于异常值所占比例小于设定值的字段,采用直接删除含异常值记录的方法;对于异常值所占比例大于设定值的字段,采用基于箱型图的异常值检测方法;
步骤B3:进行规范化处理,对于数值型字段,进行区间规范化,即根据公式(1)将数值归一化到[0,1]区间;对于取值全为0的特征项,不对该特征规范化,即保持原始值0;
Figure DEST_PATH_IMAGE002
其中Vnorm为规范化处理结果,Vinitial为特征原始值,Vmin为该特征项的最小值,Vmax为最大值;
步骤B4:进行连续属性离散化,采用等宽法将具有连续属性的字段进行离散化,分为多个类别,即将连续属性的值域根据数据特点或设定分成具有相同宽度的区间,以便于类别分析;
步骤C中对用户用电信息数据集进行聚类和敏感类别标记,以及对不平衡分布的训练集数据进行处理,具体包括以下步骤:
步骤C1:采用Canopy算法完成簇数K及初始簇中心的估计;依据参数T1和T2实现对象的粗略划分,首先,将所有对象加入候选集;然后,每次从候选集中取出一个对象,计算它的所有Canopy的距离,若它与某个Canopy的距离小于T1,则将其加入该Canopy;若它与某个Canopy的距离还小于T2,则认为它们太接近了,不再考虑其作为Canopy的可能性,从候选集中删除这个对象;算法迭代运行至所有对象都加入某个Canopy;最后,计算Canopy的数量即为簇数K的估计值,而每个Canopy中对象的均值即为初始簇中心;
步骤C2:基于步骤C1确定的簇数K和初始簇中心,采用KMeans算法寻找簇中心直至其达至稳定实现对象的划分;
步骤C3:通过上述步骤的聚类得到K个客户群体,然后进行客户画像分析,根据用户的行业类别、客户类别、用电类型、行政区域、月均电量进行业务特征刻画,以反映不同客户群体的特征差别;根据客户画像分析的结果,对不同客户群体进行敏感类别的标记;客户画像分析对不同客户群体特征差别的刻画,分析用户对停电的敏感类型和用户停电投诉的风险,准确判别不同用户对停电的敏感程度;
步骤C4:采用SMOTE过采样算法按如下步骤对不平衡分布的训练集数据进行处理:
C41:对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集S_Min中所有样本的距离,得到其k近邻;
C42:根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为
Figure DEST_PATH_IMAGE004
C43:对于每一个随机选出的近邻
Figure DEST_PATH_IMAGE006
分别与原样本x按照公式(2)构建新的样本xnew
Figure DEST_PATH_IMAGE008
其中,rand(0,1)表示随机取0到1之间的一个值。
2.根据权利要求1所述的一种基于梯度提升树的停电投诉风险预测方法,其特征在于,步骤D中进行梯度提升树的训练以得到停电投诉风险模型,具体包括以下步骤:
步骤D1:初始化回归树,其为只有一个根节点的树,估计使损失函数极小化的常数值;
步骤D2:对回归树进行迭代更新;
步骤D21:计算损失函数的负梯度在当前模型的值,将其作为残差的估计;
步骤D22:估计回归树叶节点区域,以拟合残差的近似值;
步骤D23:利用线性搜索估计叶节点区域的值,使损失函数极小化;
步骤D24:更新回归树;
步骤D3:得到停电投诉风险模型f(x);
其中,对于给定的处理后的用电信息数据训练集S和其特征维数F,设定梯度提升树的相关参数:最大迭代次数maxIter,树的最大深度maxDepth,用于训练模型的子样本占整个样本集合的比例subsamplingRate;连续型特征离散化数量maxBins,节点上最 少样本数minInstancesPerNode和节点上最少的信息增益minInfoGain;完成参数设置后,进行上述梯度提升树的训练,得到训练模型f(x)作为停电投诉风险模型。
CN201710399158.4A 2017-05-31 2017-05-31 一种基于梯度提升树的停电投诉风险预测方法 Expired - Fee Related CN107220732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710399158.4A CN107220732B (zh) 2017-05-31 2017-05-31 一种基于梯度提升树的停电投诉风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710399158.4A CN107220732B (zh) 2017-05-31 2017-05-31 一种基于梯度提升树的停电投诉风险预测方法

Publications (2)

Publication Number Publication Date
CN107220732A CN107220732A (zh) 2017-09-29
CN107220732B true CN107220732B (zh) 2021-01-29

Family

ID=59948125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710399158.4A Expired - Fee Related CN107220732B (zh) 2017-05-31 2017-05-31 一种基于梯度提升树的停电投诉风险预测方法

Country Status (1)

Country Link
CN (1) CN107220732B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992609B (zh) * 2017-12-15 2021-05-18 广东电网有限责任公司信息中心 一种基于文本分类技术和决策树的投诉倾向判断方法
CN107844612A (zh) * 2017-12-20 2018-03-27 国网冀北电力有限公司承德供电公司 一种应用于主动停电管理系统的大数据接入系统
CN108364187A (zh) * 2017-12-20 2018-08-03 国网冀北电力有限公司承德供电公司 一种基于停电敏感特性的停电敏感用户确定方法和系统
CN108269012A (zh) * 2018-01-12 2018-07-10 中国平安人寿保险股份有限公司 风险评分模型的构建方法、装置、存储介质及终端
CN108053151B (zh) * 2018-01-18 2022-03-08 国网福建省电力有限公司 一种基于gis空间服务的配网供电能力实时分析方法
CN108428007A (zh) * 2018-02-07 2018-08-21 广东省生态环境技术研究所 一种土地利用变化驱动力的识别方法、系统和装置
CN108536938A (zh) * 2018-03-29 2018-09-14 上海交通大学 一种机床刀具寿命预测系统及预测方法
CN109063943A (zh) * 2018-06-01 2018-12-21 广东电网有限责任公司 一种调整计划停电时间窗口的方法
CN108647743B (zh) * 2018-06-25 2021-08-10 江苏智通交通科技有限公司 驾驶人安全画像系统
CN109167753A (zh) * 2018-07-23 2019-01-08 中国科学院计算机网络信息中心 一种网络入侵流量的检测方法及装置
CN109447364B (zh) * 2018-11-08 2021-02-09 国网湖南省电力有限公司 基于标签的电力客户投诉预测方法
CN109582706A (zh) * 2018-11-14 2019-04-05 重庆邮电大学 基于Spark大数据平台的邻域密度不平衡数据混合采样方法
CN109617715A (zh) * 2018-11-27 2019-04-12 中盈优创资讯科技有限公司 网络故障诊断方法、系统
CN110046734B (zh) * 2018-12-06 2023-08-04 广东电网有限责任公司 基于营配前端融合的低压用电网网格动态划分方法及系统
CN111371938B (zh) * 2018-12-26 2021-07-16 华为终端有限公司 一种故障检测方法及电子设备
CN109829804A (zh) * 2019-01-10 2019-05-31 西安交通大学 一种面向标记样本缺失行政区域的纳税风险识别方法
CN109871597B (zh) * 2019-01-28 2023-08-18 平安科技(深圳)有限公司 解决潜在投诉的方法、装置、计算机设备和存储介质
US11159430B2 (en) 2019-07-22 2021-10-26 Cisco Technology, Inc. Load balancing of throughput for multi-PHY networks using decision trees
CN110503249A (zh) * 2019-08-07 2019-11-26 国网河北省电力有限公司 一种由停电引起的投诉预测方法
CN110598933A (zh) * 2019-09-16 2019-12-20 广东电网有限责任公司 一种停电敏感用户管理方法、系统及相关组件
CN110827040A (zh) * 2019-10-31 2020-02-21 支付宝(杭州)信息技术有限公司 一种消费者诉求解决方法和系统
CN110909545A (zh) * 2019-11-26 2020-03-24 电子科技大学 一种基于梯度提升算法的黑导游检测方法
CN111062425B (zh) * 2019-12-10 2022-10-28 中国人民解放军海军工程大学 基于c-k-smote算法的不平衡数据集处理方法
CN111415060B (zh) * 2020-01-21 2022-07-29 国网浙江省电力有限公司湖州供电公司 基于客户标签的投诉风险分析方法
CN111291933A (zh) * 2020-02-17 2020-06-16 青岛港国际股份有限公司 一种集装箱码头客户模型建模方法
CN111444956B (zh) * 2020-03-25 2023-10-31 平安科技(深圳)有限公司 低负载信息预测方法、装置、计算机系统及可读存储介质
CN111681128A (zh) * 2020-05-14 2020-09-18 国网河北能源技术服务有限公司 一种基于神经网络及聚类的停电敏感性分析方法
CN111652525B (zh) * 2020-06-16 2024-05-03 深圳前海微众银行股份有限公司 风险尾端客户分析方法、装置、设备及计算机存储介质
CN111966904B (zh) * 2020-08-18 2023-09-05 深圳平安智慧医健科技有限公司 基于多用户画像模型的信息推荐方法和相关装置
CN112217822B (zh) * 2020-10-13 2022-05-27 浙江工商大学 一种针对入侵数据的检测方法
CN112036515A (zh) * 2020-11-04 2020-12-04 北京淇瑀信息科技有限公司 基于smote算法的过采样方法、装置和电子设备
CN112819356B (zh) * 2021-02-08 2022-10-14 国网山西省电力公司电力科学研究院 一种基于梯度提升树的输电线路山火风险等级预报方法
CN113132352B (zh) * 2021-03-17 2023-02-10 中国人民解放军战略支援部队信息工程大学 基于流量统计特征的路由器威胁感知方法及系统
CN112907191A (zh) * 2021-03-23 2021-06-04 拉扎斯网络科技(上海)有限公司 配送时间生成方法、装置、计算机设备及可读存储介质
CN113887830A (zh) * 2021-10-26 2022-01-04 广东电网有限责任公司 停电敏感度的确定方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651093A (zh) * 2012-03-31 2012-08-29 上海海洋大学 一种基于时间序列异常检测技术的海洋信息管理系统
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095588B (zh) * 2015-08-05 2018-07-03 中国联合网络通信集团有限公司 移动互联网用户投诉的预测方法和装置
CN106529714A (zh) * 2016-11-03 2017-03-22 大唐融合通信股份有限公司 一种用户流失的预测方法及系统
CN106529804B (zh) * 2016-11-09 2023-08-18 国网江苏省电力公司南京供电公司 基于文本挖掘技术的客户投诉预警监测分析方法
CN106530132A (zh) * 2016-11-14 2017-03-22 国家电网公司 一种电力负荷聚类的方法及装置
CN106600455A (zh) * 2016-11-25 2017-04-26 国网河南省电力公司电力科学研究院 一种基于逻辑回归的电费敏感度评估方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651093A (zh) * 2012-03-31 2012-08-29 上海海洋大学 一种基于时间序列异常检测技术的海洋信息管理系统
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法

Also Published As

Publication number Publication date
CN107220732A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN107220732B (zh) 一种基于梯度提升树的停电投诉风险预测方法
CN106485262B (zh) 一种母线负荷预测方法
Kingrani et al. Estimating the number of clusters using diversity
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN108921604B (zh) 一种基于代价敏感分类器集成的广告点击率预测方法
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
WO2018090545A1 (zh) 融合时间因素的协同过滤方法、装置、服务器和存储介质
CN113962314A (zh) 一种基于联邦学习的非侵入式企业负荷分解方法
CN103325067B (zh) 基于用电客户细分的服务推送方法和系统
CN111126865B (zh) 一种基于科技大数据的技术成熟度判断方法和系统
CN111178957B (zh) 一种用电客户电量突增预警的方法
CN108460486A (zh) 一种基于改进聚类算法和神经网络的电压偏差预测方法
CN111210170A (zh) 基于90%用电分布特征指标的环保管控监测及评价方法
CN112001409A (zh) 一种基于K-means聚类算法的配电网线损异常诊断方法和系统
CN112565422B (zh) 一种对电力物联网故障数据的识别方法、系统和存储介质
CN116821832A (zh) 针对高压工商业用户用电负荷的异常数据辨识与修正方法
CN117743803A (zh) 一种基于进化特征构建的工作量感知即时缺陷预测方法
CN114781685B (zh) 基于大数据挖掘技术的大用户用电负荷预测方法及系统
CN114723554B (zh) 异常账户识别方法及装置
CN108647189B (zh) 一种识别用户人群属性的方法及装置
CN110880987A (zh) 一种基于时间特征的分组域网络容量预测方法及系统
CN115051363A (zh) 一种配网台区户变关系辨识方法、装置及计算机存储介质
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN110955811B (zh) 基于朴素贝叶斯算法的电力数据分类方法及系统
CN114331665A (zh) 用于预定申请人的信用判定模型的训练方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210129

CF01 Termination of patent right due to non-payment of annual fee