CN111046930A - 一种基于决策树算法的供电服务满意度影响因素识别方法 - Google Patents

一种基于决策树算法的供电服务满意度影响因素识别方法 Download PDF

Info

Publication number
CN111046930A
CN111046930A CN201911209719.5A CN201911209719A CN111046930A CN 111046930 A CN111046930 A CN 111046930A CN 201911209719 A CN201911209719 A CN 201911209719A CN 111046930 A CN111046930 A CN 111046930A
Authority
CN
China
Prior art keywords
decision tree
fuzzy
node
data set
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911209719.5A
Other languages
English (en)
Inventor
王宗伟
赵郭燚
金鹏
汪丽
冉晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dataocean Smart Technology Co ltd
State Grid Co Ltd Customer Service Center
Beijing China Power Information Technology Co Ltd
Original Assignee
Beijing Dataocean Smart Technology Co ltd
State Grid Co Ltd Customer Service Center
Beijing China Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dataocean Smart Technology Co ltd, State Grid Co Ltd Customer Service Center, Beijing China Power Information Technology Co Ltd filed Critical Beijing Dataocean Smart Technology Co ltd
Priority to CN201911209719.5A priority Critical patent/CN111046930A/zh
Publication of CN111046930A publication Critical patent/CN111046930A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于决策树算法的供电服务满意度影响因素识别方法,该方法包括导入需要的函数库,通过USDUW函数构建决策树,将算法标记为决策点;构建决策树时,根据给定的样本数据集选择某个特征值作为树的节点,在数据集中,计算出该数据中的信息熵;确定决策树的决策点数量,将决策点概率及损益值标于概率枝上;在决策树选择决策特征时,应选择基尼指数增益值最大的特征,作为该节点分裂条件。本发明条理清晰,程序严谨,定量、定性分析相结合,利用模糊决策树分析法分析了电力客户的满意度,通过建立规则,可以清楚地知道哪些情况下电力客户对电力服务满意,从而为今后改进服务,提高电力客户满意度提供了条件。

Description

一种基于决策树算法的供电服务满意度影响因素识别方法
技术领域
本发明涉及供电服务满意度评估技术领域,尤其涉及一种基于决策树算法的供电服务满意度影响因素识别方法。
背景技术
随着互联网、大数据、云计算等信息技术飞速发展,大部分信息已经由纸质载体过渡到电子载体,而在这些信息中,大部分是非结构化或半结构化的文本信息。如何有效管理、挖掘、分析海量非结构化数据中蕴藏的信息,已成为大数据领域的重挑战。在非结构化数据中,文本数据占据重要地位。对于拥有大量文本数据的企业,如何有效的利用这部分数据资源决定着企业将来的发展。在电力行业客服中心的数据中,如何对工单数据进行处理,从而精准的识别工单中客户的诉求,甚至挖掘隐含诉求同时及时的发现新增突增诉求,这对提升服务的质量及客户的满意程度至关重要。
传统电力行业供电服务满意度评估体系大多通过理论法与专家法进行构建,体系适用周期存在局限性,需要定期进行体系优化重建,在实际应用过程中大多依赖人为的主观评判原则,不同人员进行评估的结果差异较大,评估工作耗时较长。本发明通过建立一种可迭代的决策数据评估模型,基于开放服务满意度评估体系构建了一种理论完善的客户满意度评估方法,通过标准化的算法模型实现评估指数自动计算,大大提高了客户满意度的评估准确性与合理性。
发明内容
为克服相关技术中存在的问题,本发明实施例提供一种基于决策树算法的供电服务满意度影响因素识别方法,解决了在实际应用过程中大多依赖人为的主观评判原则,不同人员进行评估的结果差异较大,评估工作耗时较长的问题。
本发明实施例提供一种基于决策树算法的供电服务满意度影响因素识别方法,包括以下步骤:
导入需要的函数库,通过rpart函数构建决策树,将算法标记为决策点;
构建决策树时,根据给定的样本数据集选择某个特征值作为树的节点,在数据集中,计算出该数据中的信息熵;
确定决策树的决策点数量,将决策点概率及损益值标于概率枝上;
在决策树选择决策特征时,应选择基尼指数增益值最大的特征,作为该节点分裂条件;
计算各个决策点的期望值并将其标于该决策点对应的状态结点上;
比较各个决策点的期望值,并标于方案枝上,将期望值小的的期望值去掉,得出最后的方案为最佳方案。
进一步地,所述作用前的信息熵计算公式为:
Figure BDA0002297830260000021
其中D表示训练数据集,c表示数据类别数,Pi表示类别i样本数量占所有样本的比例,对应数据集D,选择特征A作为决策树判断节点时,在特征A作用后的信息熵的为InIo(D),作用后的信息熵计算公式如下:
Figure BDA0002297830260000022
其中k表示样本D被分为k个部分。
进一步地,信息增益表示数据集D在特征A的作用后,其信息熵减少的值,信息熵差值计算公式如下:Gain(A)=Info(D)-InfoA(D),对于决策树节点最合适的特征选择,就是Gain(A)值最大的特征。
进一步地,所述基尼指数计算公式如下:
Figure BDA0002297830260000023
其中c表示数据集中类别的数量,Pi表示类别i样本数量占所有样本的比例。
进一步地,选取的属性为A时,分裂后的数据集D的基尼指数的计算公式为:
Figure BDA0002297830260000031
基尼指数差值计算公式如下:ΔGini(A)=Gini(D)-GiniA(D)。
进一步地,建立决策树模型后给出该模型的评估值,用于判断模型的优劣,评估指标包括分类准确度、召回率、虚警率和精确度,评估指标基于混淆矩阵(confusion matrix)进行计算,其中分类准确度的计算公式如下:
Figure BDA0002297830260000032
召回率的计算公式如下:
Figure BDA0002297830260000033
虚警率计算公式如下:
Figure BDA0002297830260000034
精确度计算公式如下:
Figure BDA0002297830260000035
P:正例的样本数量,N:负例的样本数量,TP:正确预测到的正例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量,TN:正确预测到的负例的数量。
进一步地,所述评估方法包括保留法、随机二次抽样、交叉验证和自助法。
进一步地,从供电质量、服务质量、公司形象与客户关系四个方面对电力客户满意度指标建立隶属函数体系,设D为数据集,C1(l=1,2,…,L)为模糊分类,且令DC1为数据集D中类别为C1的模糊子集,则模糊分类的相对频率Pl可定义为:
Figure BDA0002297830260000036
公式中M(D)为模糊集合A的基数(即所有隶属度的总和).在模糊决策树的任一结点上,模糊数据集D关于模糊分类C1(l=1,2,…,L)的模糊熵FE(D)定义为:
Figure BDA0002297830260000037
设在一个非叶结点上有模糊数据集D和属性集{A1,A2,…,Am}(m为属性数),且对每个属性Ai(l≤i≤m)有ki个模糊值{Fi1,Fi2,…,Fiki},故通过属性Ai可把数据集D划分为ki个模糊子集DFij(1≤j≤ki),则属性Ai相对于数据集D的模糊熵FE(Ai,D)为:
Figure BDA0002297830260000041
Figure BDA0002297830260000042
属性Ai相对于数据集D的模糊信息增益FG(Ai,D)为:FG(Ai,D)=FE(D)-FE(Ai,D).,模糊ID3算法每次选择使模糊信息增益最大的属性作为生成模糊决策树的扩展属性,即选取属性Ak0,
Figure BDA0002297830260000043
进一步地,将数据集通过支持向量分离方法进行分类:
A、将数据集D作为第一个候选结点,即根结点;
B、叶结点生成,当模糊决策树中结点S满足下列条件之一,则把该结点作为叶结点,并用三种叶结点标定方法之一来标定该叶结点;
1、某个分类的相对频率大于或等于给定阈值β;
2、所有分类的隶属度的总和小于给定阈值γ;
3、没有可用的扩展属性时
C、扩展属性选择,当前结点S不满足叶结点生成准则,则它是非终端结点,它的扩展属性选择过程为:对每个属性Ai(i=1,2,…,m),计算它们的模糊信息增益FD(Ai,D),选择模糊信息增益最大的属性Amax,使FG(Amax,D)=Max1≤i≤m(FG(Ai,D)),如果FG(Amax,D)≤0,则把该结点作为叶结点,并用步骤B中三种叶结点确定方法之一来标定本结点,如果信息增益FG(Amax,D)>0,则把属性Amax作为扩展属性,把数据集D划分为k max个子集Dj(1≤j≤k max),并产生相应的子结点Sj(1≤j≤k max),用Sj替换S,Dj替换D,从步骤B开始递归,并重复上述过程
进一步地,所述第i个叶节点的置信度计算公式为:
Figure BDA0002297830260000051
本发明的实施例提供的技术方案具有以下有益效果:条理清晰,程序严谨,定量、定性分析相结合,利用模糊决策树分析法分析了电力客户的满意度,通过建立规则,可以清楚地知道哪些情况下电力客户对电力服务满意,从而为今后改进服务,提高电力客户满意度提供了条件,决策树法可以简单明了地帮助企业决策层进行分析。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明实施例中基于决策树算法的供电服务满意度影响因素识别方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置及相关应用、方法的例子。
图1是本发明实施例中基于决策树算法的供电服务满意度影响因素识别方法的流程图,如图1所示,该基于决策树算法的供电服务满意度影响因素识别方法,包括以下步骤:
步骤101、导入需要的函数库,通过rpart函数构建决策树,将算法标记为决策点。
步骤102、构建决策树时,根据给定的样本数据集选择某个特征值作为树的节点,在数据集中,计算出该数据中的信息熵。
信息熵表示的是不确定度,均匀分布时,不确定度最大,此时熵就最大。当选择某个特征对数据集进行分类时,分类后的数据集信息熵会比分类前的小,其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。
作用前的信息熵计算公式为:
Figure BDA0002297830260000061
其中D表示训练数据集,c表示数据类别数,Pi表示类别i样本数量占所有样本的比例,对应数据集D,选择特征A作为决策树判断节点时,在特征A作用后的信息熵的为Info(D),作用后的信息熵计算公式如下:
Figure BDA0002297830260000062
其中k表示样本D被分为k个部分。
信息增益表示数据集D在特征A的作用后,其信息熵减少的值,信息熵差值计算公式如下:ΔGain(A)=Info(D)-InfoA(D),对于决策树节点最合适的特征选择,就是Gain(A)值最大的特征。
步骤103、确定决策树的决策点数量,将决策点概率及损益值标于概率枝上。
在决策树选择决策特征时,应选择基尼指数增益值最大的特征,作为该节点分裂条件;
基尼指数计算公式如下:
Figure BDA0002297830260000063
其中c表示数据集中类别的数量,Pi表示类别i样本数量占所有样本的比例。
选取的属性为A时,分裂后的数据集D的基尼指数的计算公式为:
Figure BDA0002297830260000071
基尼指数差值计算公式如下:ΔGini(A)=Gini(D)-GiniA(D)。
从该公式可以看出,当数据集中数据混合的程度越高,基尼指数也就越高。当数据集D只有一种数据类型,那么基尼指数的值为最低0。
步骤104、计算各个决策点的期望值并将其标于该决策点对应的状态结点上;
步骤105、比较各个决策点的期望值,并标于方案枝上,将期望值小的的期望值去掉,得出最后的方案为最佳方案。
建立决策树模型后给出该模型的评估值,用于判断模型的优劣,评估指标包括分类准确度、召回率、虚警率和精确度,评估指标基于混淆矩阵(confusion matrix)进行计算,其中分类准确度的计算公式如下:
Figure BDA0002297830260000072
召回率的计算公式如下:
Figure BDA0002297830260000073
虚警率计算公式如下:
Figure BDA0002297830260000074
精确度计算公式如下:
Figure BDA0002297830260000075
P:正例的样本数量,N:负例的样本数量,TP:正确预测到的正例的数量,FP:把负例预测成正例的数量,FN:把正例预测成负例的数量,TN:正确预测到的负例的数量。
评估方法包括保留法、随机二次抽样、交叉验证和自助法。
保留法是评估分类模型性能的最基本的一种方法。将被标记的原始数据集分成训练集和检验集两份,训练集用于训练分类模型,检验集用于评估分类模型性能。但此方法不适用样本较小的情况,模型可能高度依赖训练集和检验集的构成。
随机二次抽样是指多次重复使用保留方法来改进分类器评估方法。同样此方法也不适用训练集数量不足的情况,而且也可能造成有些数据未被用于训练集。
交叉验证是指把数据分成数量相同的k份,每次使用数据进行分类时,选择其中一份作为检验集,剩下的k-1份为训练集,重复k次,正好使得每一份数据都被用于一次检验集k-1次训练集。该方法的优点是尽可能多的数据作为训练集数据,每一次训练集数据和检验集数据都是相互独立的,并且完全覆盖了整个数据集。也存在一个缺点,就是分类模型运行了K次,计算开销较大。
自助法是指在其方法中,训练集数据采用的是有放回的抽样,即已经选取为训练集的数据又被放回原来的数据集中,使得该数据有机会能被再一次抽取。
从供电质量、服务质量、公司形象与客户关系四个方面对电力客户满意度指标建立隶属函数体系,设D为数据集,C1(1=1,2,…,L)为模糊分类,且令DC1为数据集D中类别为C1的模糊子集,则模糊分类的相对频率3O可定义为:
Figure BDA0002297830260000081
公式中M(D)为模糊集合A的基数(即所有隶属度的总和).在模糊决策树的任一结点上,模糊数据集D关于模糊分类C1(1=1,2,…,L)的模糊熵FE(D)定义为:
Figure BDA0002297830260000082
设在一个非叶结点上有模糊数据集D和属性集{A1,A2,…,Am}(m为属性数),且对每个属性Ai(1≤i≤m)有ki个模糊值{Fi1,Fi2,…,Fiki},故通过属性Ai可把数据集D划分为ki个模糊子集DFij(1≤j≤ki),则属性Ai相对于数据集D的模糊熵FE(Ai,D)为:
Figure BDA0002297830260000091
Figure BDA0002297830260000092
属性Ai相对于数据集D的模糊信息增益FG(Ai,D)为:FG(Ai,DF=FE(D)-FE(Ai,D).,模糊ID3算法每次选择使模糊信息增益最大的属性作为生成模糊决策树的扩展属性,即选取属性Ak0,
Figure BDA0002297830260000093
采用聚类的方法确定隶属度函数的参数,它的主要任务是确定k值和求出中心点集合A,为此,根据特征映射算法对数据进行迭代聚类,依据数理统计中F-统计量选择最大的k和A进行求解计算。
将数据集通过支持向量分离方法进行分类:
A、将数据集D作为第一个候选结点,即根结点;
B、叶结点生成,当模糊决策树中结点S满足下列条件之一,则把该结点作为叶结点,并用三种叶结点标定方法之一来标定该叶结点;
1、某个分类的相对频率大于或等于给定阈值β;
2、所有分类的隶属度的总和小于给定阈值γ;
3、没有可用的扩展属性时
C、扩展属性选择,当前结点S不满足叶结点生成准则,则它是非终端结点,它的扩展属性选择过程为:对每个属性Ai(i=1,2,…,m),计算它们的模糊信息增益FD(Ai,D),选择模糊信息增益最大的属性Amax,使FG(A max,D)=M ax1≤i≤m(FG(Ai,D)),如果FG(Amax,D)≤0,则把该结点作为叶结点,并用步骤B中三种叶结点确定方法之一来标定本结点,如果信息增益FG(Amax,D)>0,则把属性Amax作为扩展属性,把数据集D划分为k max个子集Dj(1≤j≤k max),并产生相应的子结点Sj(1≤j≤k max),用Sj替换S,Dj替换D,从步骤B开始递归,并重复上述过程。
第i个叶节点的置信度计算公式为:
Figure BDA0002297830260000101
采用了上述实施例中的技术方案,条理清晰,程序严谨,定量、定性分析相结合,利用模糊决策树分析法分析了电力客户的满意度,通过建立规则,可以清楚地知道哪些情况下电力客户对电力服务满意,从而为今后改进服务,提高电力客户满意度提供了条件,决策树法可以简单明了地帮助企业决策层进行分析。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,包括以下步骤:
导入需要的函数库,通过rpart函数构建决策树,将算法标记为决策点;
构建决策树时,根据给定的样本数据集选择某个特征值作为树的节点,在数据集中,计算出该数据中的信息熵;
确定决策树的决策点数量,将决策点概率及损益值标于概率枝上;
在决策树选择决策特征时,应选择基尼指数增益值最大的特征,作为该节点分裂条件;
计算各个决策点的期望值并将其标于该决策点对应的状态结点上;
比较各个决策点的期望值,并标于方案枝上,将期望值小的的期望值去掉,得出最后的方案为最佳方案。
2.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,所述作用前的信息熵计算公式为:
Figure FDA0002297830250000011
其中D表示训练数据集,c表示数据类别数,Pi表示类别i样本数量占所有样本的比例,对应数据集D,选择特征A作为决策树判断节点时,在特征A作用后的信息熵的为Info(D),作用后的信息熵计算公式如下:
Figure FDA0002297830250000012
其中k表示样本D被分为k个部分。
3.根据权利要求2所述的基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,信息增益表示数据集D在特征A的作用后,其信息熵减少的值,信息熵差值计算公式如下:Gain(A)=Info(D)-InfoA(D),对于决策树节点最合适的特征选择,就是Gain(A)值最大的特征。
4.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,所述基尼指数计算公式如下:
Figure FDA0002297830250000021
其中c表示数据集中类别的数量,Pi表示类别i样本数量占所有样本的比例。
5.根据权利要求4所述的基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,进一步地,选取的属性为A时,分裂后的数据集D的基尼指数的计算公式为:
Figure FDA0002297830250000022
基尼指数差值计算公式如下:ΔGini(A)=Gini(D)-GiniA(D)。
6.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,还包括,建立决策树模型后给出该模型的评估值,用于判断模型的优劣,评估指标包括分类准确度、召回率、虚警率和精确度,评估指标基于混淆矩阵(confusion matriX)进行计算,其中分类准确度的计算公式如下:
Figure FDA0002297830250000023
召回率的计算公式如下:
Figure FDA0002297830250000024
虚警率计算公式如下:
Figure FDA0002297830250000025
精确度计算公式如下:
Figure FDA0002297830250000026
P(Positive Sample):正例的样本数量,N(Negative Sample):负例的样本数量,TP(TruePositive):正确预测到的正例的数量,FP(False Positive):把负例预测成正例的数量,FN(False Negative):把正例预测成负例的数量,TN(True Negative):正确预测到的负例的数量。
7.根据权利要求6所述的基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,所述评估方法包括保留法、随机二次抽样、交叉验证和自助法。
8.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,进一步地,从供电质量、服务质量、公司形象与客户关系四个方面对电力客户满意度指标建立隶属函数体系,设D为数据集,C1(1=1,2,...,L)为模糊分类,且令DC1为数据集D中类别为C1的模糊子集,则模糊分类的相对频率Pl可定义为:
Figure FDA0002297830250000031
公式中M(D)为模糊集合A的基数(即所有隶属度的总和).在模糊决策树的任一结点上,模糊数据集D关于模糊分类C1(1=1,2,...,L)的模糊熵FE(D)定义为:
Figure FDA0002297830250000032
设在一个非叶结点上有模糊数据集D和属性集{A1,A2,...,Am}(m为属性数),且对每个属性Ai(1≤i≤m)有ki个模糊值{Fi 1,Fi 2,...,Fiki},故通过属性Ai可把数据集D划分为ki个模糊子集DFij(1≤j≤ki),则属性Ai相对于数据集D的模糊熵FE(Ai,D)为:
Figure FDA0002297830250000033
Figure FDA0002297830250000034
属性Ai相对于数据集D的模糊信息增益FG(Ai,D)为:FG(Ai,D)=FE(D)-FE(Ai,D).,模糊ID3算法每次选择使模糊信息增益最大的属性作为生成模糊决策树的扩展属性,即选取属性Ak 0,
Figure FDA0002297830250000035
9.根据权利要求1所述的基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,进一步地,将数据集通过支持向量分离方法进行分类:
A、将数据集D作为第一个候选结点,即根结点;
B、叶结点生成,当模糊决策树中结点S满足下列条件之一,则把该结点作为叶结点,并用三种叶结点标定方法之一来标定该叶结点;
1、某个分类的相对频率大于或等于给定阈值β;
2、所有分类的隶属度的总和小于给定阈值γ;
3、没有可用的扩展属性时
C、扩展属性选择,当前结点S不满足叶结点生成准则,则它是非终端结点,它的扩展属性选择过程为:对每个属性Ai(i=1,2,...,m),计算它们的模糊信息增益FD(Ai,D),选择模糊信息增益最大的属性Amax,使FG(A max,D)=M ax1≤i≤m(FG(Ai,D)),如果FG(Amax,D)≤0,则把该结点作为叶结点,并用步骤B中三种叶结点确定方法之一来标定本结点,如果信息增益FG(Amax,D)>0,则把属性Amax作为扩展属性,把数据集D划分为k max个子集Dj(1≤j≤k max),并产生相应的子结点Sj(1≤j≤k max),用Sj替换S,Dj替换D,从步骤B开始递归,并重复上述过程。
10.根据权利要求9所述的基于决策树算法的供电服务满意度影响因素识别方法,其特征在于,所述第i个叶节点的置信度计算公式为:
Figure FDA0002297830250000041
CN201911209719.5A 2019-12-01 2019-12-01 一种基于决策树算法的供电服务满意度影响因素识别方法 Pending CN111046930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911209719.5A CN111046930A (zh) 2019-12-01 2019-12-01 一种基于决策树算法的供电服务满意度影响因素识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911209719.5A CN111046930A (zh) 2019-12-01 2019-12-01 一种基于决策树算法的供电服务满意度影响因素识别方法

Publications (1)

Publication Number Publication Date
CN111046930A true CN111046930A (zh) 2020-04-21

Family

ID=70234240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911209719.5A Pending CN111046930A (zh) 2019-12-01 2019-12-01 一种基于决策树算法的供电服务满意度影响因素识别方法

Country Status (1)

Country Link
CN (1) CN111046930A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149731A (zh) * 2020-09-23 2020-12-29 内蒙古电力(集团)有限责任公司乌海电业局 基于id3算法的电力系统故障分类方法及系统
CN112801231A (zh) * 2021-04-07 2021-05-14 支付宝(杭州)信息技术有限公司 用于业务对象分类的决策模型训练方法和装置
CN113505997A (zh) * 2021-07-13 2021-10-15 同济大学 一种基于机器学习的建筑墙面渗漏水风险等级评估方法
CN113642660A (zh) * 2021-08-20 2021-11-12 招商局重庆交通科研设计院有限公司 一种道面多维检测数据的信息增益表征方法
CN113807701A (zh) * 2021-09-18 2021-12-17 国网福建省电力有限公司 基于信息熵决策树算法的供电服务质量分析方法
CN113850630A (zh) * 2021-09-29 2021-12-28 中国电信股份有限公司 满意度预测方法及装置、存储介质、电子设备
CN113869750A (zh) * 2021-09-30 2021-12-31 中国计量大学 一种基于大数据的自动化电梯维保企业评级系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149731A (zh) * 2020-09-23 2020-12-29 内蒙古电力(集团)有限责任公司乌海电业局 基于id3算法的电力系统故障分类方法及系统
CN112801231A (zh) * 2021-04-07 2021-05-14 支付宝(杭州)信息技术有限公司 用于业务对象分类的决策模型训练方法和装置
CN113505997A (zh) * 2021-07-13 2021-10-15 同济大学 一种基于机器学习的建筑墙面渗漏水风险等级评估方法
CN113642660A (zh) * 2021-08-20 2021-11-12 招商局重庆交通科研设计院有限公司 一种道面多维检测数据的信息增益表征方法
CN113807701A (zh) * 2021-09-18 2021-12-17 国网福建省电力有限公司 基于信息熵决策树算法的供电服务质量分析方法
CN113850630A (zh) * 2021-09-29 2021-12-28 中国电信股份有限公司 满意度预测方法及装置、存储介质、电子设备
CN113869750A (zh) * 2021-09-30 2021-12-31 中国计量大学 一种基于大数据的自动化电梯维保企业评级系统

Similar Documents

Publication Publication Date Title
CN111046930A (zh) 一种基于决策树算法的供电服务满意度影响因素识别方法
CN105069470A (zh) 分类模型训练方法及装置
CN106096834B (zh) 一种基于sem-fsvm的煤矿安全管理风险评价方法
CN108681742B (zh) 用于分析司机驾驶行为对车辆能耗敏感性的分析方法
CN114707571B (zh) 基于增强隔离森林的信用数据异常检测方法
CN115699209A (zh) 用于人工智能(ai)模型选择的方法
CN111401785A (zh) 一种基于模糊关联规则的电力系统设备故障预警方法
CN107203772B (zh) 一种用户类型识别方法及装置
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN112836750A (zh) 一种系统资源分配方法、装置及设备
CN115204536A (zh) 楼宇设备故障预测方法、装置、设备及存储介质
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
Ribeiro et al. Does dataset complexity matters for model explainers?
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
US20230252282A1 (en) Method, server, and system for deep metric learning per hierarchical steps of multi-labels and few-shot inference using the same
CN112433952B (zh) 深度神经网络模型公平性测试方法、系统、设备及介质
CN110955811B (zh) 基于朴素贝叶斯算法的电力数据分类方法及系统
Wirawan et al. Application of data mining to prediction of timeliness graduation of students (a case study)
Silva et al. Classifying feature models maintainability based on machine learning algorithms
CN113850483A (zh) 一种企业信用风险评级系统
Bass et al. Utility-scale Building Type Assignment Using Smart Meter Data
CN111127184A (zh) 一种分布式组合信用评估方法
Silva et al. A machine learning model to classify the feature model maintainability
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination