CN111325405A - 一种抱怨敏感度建模预测方法 - Google Patents

一种抱怨敏感度建模预测方法 Download PDF

Info

Publication number
CN111325405A
CN111325405A CN202010135819.4A CN202010135819A CN111325405A CN 111325405 A CN111325405 A CN 111325405A CN 202010135819 A CN202010135819 A CN 202010135819A CN 111325405 A CN111325405 A CN 111325405A
Authority
CN
China
Prior art keywords
data
model
work orders
last
complaint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010135819.4A
Other languages
English (en)
Inventor
周玲
黄渊军
朱州
张克贤
王鹏
曾路
田钺
张刚
杨松
钟璐
殷志易
汤成佳
杨箴
汪浩
方继宇
宋奕
谢祈鸿
吴漾
葛松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202010135819.4A priority Critical patent/CN111325405A/zh
Publication of CN111325405A publication Critical patent/CN111325405A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种抱怨敏感度建模预测方法,该方法包括步骤:数据获取;数据处理:数据清洗、缺失值处理、唯一值处理和异常值处理;特征选取;构建模型:深度学习keras的多分类建模方式来进行建模,模型训练,评估模型和测试模型。本发明对客户数据进行分类成不同的敏感度数据,采用深度学习多层前馈神经网络的softmax多分类模型进行训练,保证模型准确率,模型准确率可达90%以上,准确抓取敏感度人群,对其进行优先安抚。

Description

一种抱怨敏感度建模预测方法
技术领域
本发明属于电力管理技术领域,具体涉及一种抱怨敏感度建模预测方法。
背景技术
关于预测类的挖掘算法主要分为传统机器学习算法和深度学习算法,传 统机器学习算法包括逻辑回归、决策树、支持向量机、随机森林、GBDT等; 深度学习算法包括BP神经网络、卷积神经网络、长短期记忆神经网络等,传 统机器学习算法中的逻辑回归和决策树的可解释性强,但是针对大数据量的 情况下进行建模预测时,模型预测的准确率较差。
发明内容
本发明要解决的技术问题是:提供一种抱怨敏感度建模预测方法,以解 决现有技术中存在的问题。
本发明采取的技术方案为:一种抱怨敏感度建模预测方法,该方法包括 以下步骤:
(1)数据获取:数据源为客服工单信息表和用电户这两个表中的数据, 将用电户和客服工单信息表进行关联,将用户编号这一字段在客服工单信息 表中进行添加,形成数据加工分析的客服工单基础信息表,用户编号这一字 段加工为用户标识作为唯一标识;
(2)数据处理,包括以下步骤:
(a)数据清洗:对原始数据数据加工,获取“高敏感客户”、“中敏感 客户”、“低敏感客户”和“静默客户”的敏感度数据,创建数据宽表,将 数据转换为适合数据建模的格式化数据,格式化数据包括用户标识、所属供 电单位、抱怨区域、用户地址、来电次数、来电平均时间间隔、投诉/举报占 比、建议占比字段;
(b)缺失值处理:对步骤(a)中投诉、建议类别缺失值进行0的填充;
(c)唯一值处理:对于步骤(a)中唯一值字段进行删除:对供电单位 等分类型字段进行唯一值检验,若为唯一值,则进行剔除,否则进行保留;
(d)异常值处理:对于步骤(a)中利用箱线图,对异常数据进行检测, 将异常数据进行剔除;
(3)特征选取:分类型变量进行编码,对于单变量采用相关系数计算公 式计算各个输入变量与输出变量之间的相关系数大小,探索各个输入变量与 输出变量之间的相关性,进行特征的选取;
Figure BDA0002397277010000021
其中:ρx,y为相关系数;
x为自变量;
y为因变量;
n为样本数量;
(4)构建模型:从训练数据表中选取数据,将所选数据进行数据划分, 80%作为训练数据,20%作为验证数据。其中,在训练数据中将对投诉和建议 与其它类别的样本进行1:1选取,测试数据是从测试数据表中进行获取,定 义神经网络模型,训练模型,直到到达最优,对模型进行评估,评估后,将 测试数据带入训练好的训练模型中进行测试。
步骤(2)中原始数据加工包括原始变量加工和衍生变量加工,原始变量 加工:对于客服工单基础信息表中存在的用户标识、所属供电单位、抱怨区 域、用户地址的客户基本信息,直接进行使用的字段,则只需从原始数据表 中进行获取即可,无需加工;衍生变量加工:对于客服工单基础信息表中没 有,且根据业务需求分析影响较大的因素,将其加工成基于原始变量的衍生 变量,具体如下:
(1)总体来电次数:根据同一用户的所有95598客服工单数进行统计计 算;
(2)总体来电平均时间间隔:根据同一用户的所有客服工单的最大时间 与最小时间差与所有工单数的占比;
(3)总体投诉占比:根据同一用户的所有工单中发生“投诉”的工单数 量与所有工单数的占比,“投诉”的工单数量包括投诉和举报两类工单数量;
(4)总体建议占比:根据同一用户的所有工单中发生“建议”的工单数 量与所有工单数的占比;
(5)最近一月来电次数:最近一个月同一用户所有的95598客服工单数 进行统计计算;
(6)最近一月投诉占比:最近一个月同一用户的所有工单中发生“投诉” 的工单数量与最近一个月所有工单数的占比;
(7)最近一月建议占比:最近一个月同一用户的所有工单中发生“建议” 的工单数量与最近一个月所有工单数的占比;
(8)最近三个月来电次数:最近三个月同一用户的所有95598客服工单 数量进行统计计算;
(9)最近三个月投诉占比:最近三个月同一用户的所有工单中发生“投 诉”的工单数量与最近三个月所有工单数占比;
(10)最近三个月建议占比:最近三个月同一用户的所有工单中发生“建 议”的工单数量与最近三个月所有工单数占比;
(11)最近半年来电次数:最近半年同一用户的所有95598客服工单数 量进行统计计算;
(12)最近半年投诉占比:最近半年同一用户的所有工单中发生“投诉” 的工单数量与最近三个月所有工单数占比;
(13)最近半年建议占比:最近半年同一用户的所有工单中发生“投诉” 的工单数量与最近三个月所有工单数占比;
(14)敏感度:发生过“投诉”和“举报”工单的用户定义为“高敏感客 户”,发生过“建议”和“意见”工单的用户定义为“中敏感客户”,其余有 来电记录但是没有投诉举报意见建议类型来电的用户定义为“低敏感客户”, 没有来电记录的用户定义为“静默客户”。
分类型变量进行编码中分类型变量包括不同字符串值,使用keras神经网 络训练时进行以下处理步骤:
第一、检查类标签总共有多少个不同的字符串值;
第二、对字符串值进行数值编码,将字符串转化为数值;
第三、将数值进行热编码,即每个数字用向量来表示。
定义神经网络模型如下:
第一、全连接层,该层具有128个神经元,使用relu激活函数;
第二、第二隐含层,该隐含层具有64个神经元,使用relu激活函数;
第三、第三隐含层,该隐含层具有64个神经元,使用relu激活函数;
第四、输出层是3个神经元,使用softmax激活函数,表示在三个分类上 的概率分布;
第五、编译模型
其中,模型使用交叉熵作为损失函数,公式为:
Figure BDA0002397277010000051
其中:y为因变量(真实值),
Figure BDA0002397277010000052
为预测值;
SGD随机梯度下降优化算法,公式为:
Figure BDA0002397277010000053
其中,xi为训练样本自变量,
yi为训练样本因变量,
θ为参数,
J(θ;xi;yi)为损失函数,
Figure BDA0002397277010000054
为θ的梯度,
η为学习率。
训练模型中将训练数据带入编译好的模型进行数据建模,设定模型训练 次数、批量大小,通过不断的训练模型,验证模型评估模型的准确率来不断 的更新模型参数,直至模型达到最优。
模型评估中评估机器学习模型的黄金标准是k倍交叉验证,使用k-fold 交叉验证在所有数据上评估神经网络模型的模型效果,选取k=10进行模型验 证,模型准确率达到95%以上。
模型测试中,将测试数据带入训练好的训练模型中进行测试,针对预测 结果与测试数据的真实数据进行比较,利用混淆矩阵计算模型召回率、准确 率,在多分类中的混淆矩阵的召回率的计算方法时,将某一类规定为“正”, 其它类均为“负”,通过以下公式进行计算:
准确率=将正类预测为正类/所有预测为正类,即准确率=TP/(TP+FP);
召回率=将正类预测为正类/所有正真的正类,即召回率=TP/(TP+FN);
其中,TP为将正类预测为正类,FN为将正类预测为负类,FP为将负类 预测位正类,TN为将负类预测位负类;
通过将测试数据进行预测之后的结果与测试数据的真实结果进行混淆矩 阵的构建,通过混淆矩阵计算模型准确率,可知预测模型的准确率可达90% 以上。
本发明的有益效果:与现有技术相比,本发明对客户数据进行分类成不 同的敏感度数据,采用深度学习多层前馈神经网络的softmax多分类模型进行 训练,保证模型准确率,模型准确率可达90%以上,准确抓取敏感度人群, 对其进行优先安抚。
具体实施方式
下面结合具体的实施例对本发明进行进一步介绍。
抱怨定义为客户来电中类型为投诉、举报、建议、意见的四类来电。通 过分析客户对供电企业的所属供电单位、时间区段、抱怨频率、抱怨类型、 抱怨区域、用户类型、用户地址等,判断客户的抱怨敏感度,用于识别需要 优先进行问题解释和情绪安抚等服务的用户。
其中敏感度分为高(有过投诉、举报等来电的)、中(有过建议、意见 来电的)、低(均未有投诉、举报、建议等类型的来电)、静默(未有来电 记录的)。
基于业务中对敏感度的需求划分,需将来电记录分为4类,因此,本发 明选取基于深度学习keras的多分类建模方式来进行建模。
实施例1:一种抱怨敏感度建模预测方法,该方法包括以下步骤:
(1)数据获取:数据源为客服工单信息表和用电户这两个表中的数据, 将用电户和客服工单信息表进行关联,将用户编号这一字段在客服工单信息 表中进行添加,形成数据加工分析的客服工单基础信息表,用户编号这一字 段加工为用户标识作为唯一标识;用户编号分以下两种情况进行分析:
(1)能进行用户编号关联的用用户编号进行用户标识标记;
(2)用户编号为空的工单通过来电号码进行识别作为用户标识标记;
(2)数据处理,包括以下步骤:
(a)数据清洗:对原始数据数据加工,获取“高敏感客户”、“中敏感 客户”、“低敏感客户”和“静默客户”的敏感度数据,创建数据宽表,将 数据转换为适合数据建模的格式化数据,格式化数据包括用户标识、所属供 电单位、抱怨区域、用户地址、来电次数、来电平均时间间隔、投诉/举报占 比、建议占比字段;
原始数据加工包括原始变量加工和衍生变量加工,原始变量加工:对于 客服工单基础信息表中存在的用户标识、所属供电单位、抱怨区域、用户地 址的客户基本信息,直接进行使用的字段,则只需从原始数据表中进行获取 即可,无需加工;衍生变量加工:对于客服工单基础信息表中没有,且根据 业务需求分析影响较大的因素,将其加工成基于原始变量的衍生变量,具体 如下:
(1)总体来电次数:根据同一用户的所有95598客服工单数进行统计计 算;
(2)总体来电平均时间间隔:根据同一用户的所有客服工单的最大时间 与最小时间差与所有工单数的占比;
(3)总体投诉占比:根据同一用户的所有工单中发生“投诉”的工单数 量与所有工单数的占比,“投诉”的工单数量包括投诉和举报两类工单数量;
(4)总体建议占比:根据同一用户的所有工单中发生“建议”的工单数 量与所有工单数的占比;
(5)最近一月来电次数:最近一个月同一用户所有的95598客服工单数 进行统计计算;
(6)最近一月投诉占比:最近一个月同一用户的所有工单中发生“投诉” 的工单数量与最近一个月所有工单数的占比;
(7)最近一月建议占比:最近一个月同一用户的所有工单中发生“建议” 的工单数量与最近一个月所有工单数的占比;
(8)最近三个月来电次数:最近三个月同一用户的所有95598客服工单 数量进行统计计算;
(9)最近三个月投诉占比:最近三个月同一用户的所有工单中发生“投 诉”的工单数量与最近三个月所有工单数占比;
(10)最近三个月建议占比:最近三个月同一用户的所有工单中发生“建 议”的工单数量与最近三个月所有工单数占比;
(11)最近半年来电次数:最近半年同一用户的所有95598客服工单数 量进行统计计算;
(12)最近半年投诉占比:最近半年同一用户的所有工单中发生“投诉” 的工单数量与最近三个月所有工单数占比;
(13)最近半年建议占比:最近半年同一用户的所有工单中发生“投诉” 的工单数量与最近三个月所有工单数占比;
(14)敏感度:发生过“投诉”和“举报”工单的用户定义为“高敏感 客户”,发生过“建议”和“意见”工单的用户定义为“中敏感客户”,其 余有来电记录但是没有投诉举报意见建议类型来电的用户定义为“低敏感客 户”,没有来电记录的用户定义为“静默客户”;
(b)缺失值处理:对步骤(a)中投诉、建议类别缺失值进行0的填充;
对于总体投诉占比、总体建议占比、最近一个月的投诉占比、最近一个月 的建议占比、最近三个月的投诉占比、最近三个月的建议占比、最近三个月 的平均投诉占比、最近三个月的平均建议占比、最近半年的投诉占比、最近 半年的建议占比、最近半年的平均投诉占比、最近半年的平均建议占比这些 字段因为本身投诉、建议类别的工单数量就少,尤其是投诉类工单,因此, 这两类相关的占比类数据缺失数据会超过50%,但这又是对敏感度影响的重 要因素,所以,对于这一类缺失值进行0的填充;
(c)唯一值处理:对于步骤(a)中唯一值字段进行删除:对供电单位 等分类型字段进行唯一值检验,若为唯一值,则进行剔除,否则进行保留;
(d)异常值处理:对于步骤(a)中利用箱线图,对异常数据进行检测, 将异常数据进行剔除;
(3)特征选取:分类型变量进行编码:
分类型变量进行编码中分类型变量包括不同字符串值,使用keras神经网 络训练时进行以下处理步骤:
第一、检查类标签总共有多少个不同的字符串值,例如:A,B,C;
第二、对字符串值进行数值编码,将字符串转化为数值,例如:A=1,B=2, C=3;
第三、将数值进行热编码,即每个数字用向量来表示,例如:A=[1,0, 0],B=[0,1,0],C=[0,0,1];
对于单变量采用相关系数计算公式计算各个输入变量与输出变量之间的 相关系数大小,探索各个输入变量与输出变量之间的相关性,进行特征的选 取;
Figure BDA0002397277010000101
其中:ρx,y为相关系数;
x为自变量;
y为因变量;
n为样本数量;
(4)构建模型:从训练数据表中选取数据,将所选数据进行数据划分, 80%作为训练数据,20%作为验证数据,其中,在训练数据中将对投诉和建议 与其它类别的样本进行1:1选取,使得训练数据均衡,测试数据是从测试数 据表中进行获取,定义神经网络模型,训练模型,直到到达最优,对模型进 行评估,评估后,将测试数据带入训练好的训练模型中进行测试。
分类型变量进行编码中分类型变量包括不同字符串值,使用keras神经网 络训练时进行以下处理步骤:
第一、检查类标签总共有多少个不同的字符串值;
第二、对字符串值进行数值编码,将字符串转化为数值;
第三、将数值进行热编码,即每个数字用向量来表示。
定义神经网络模型中设置隐层神经元个数,具体计算方式有以下几种方 式:
(1)根据Kolmogorov定理,可以计算出,隐层结点数s=2n+1(n为输 入层结点数),且本次建模中选取的神经元个数计算也是采用这种方法;
(2)fangfaGorman指出隐层结点数s与模式数N的关系是:s=log2N;
s=sqrt(0.43mn+0.12nn+2.54m+0.77n+0.35)+0.51;
其中,m是输入层的个数,n是输出层的个数;
(3)基于以上的初始神经元个数,然后不断对模型进行测试,逐渐添加 神经元个数,直至达到模型效果最佳为止;
定义神经网络模型如下:
第一、全连接层,该层具有128个神经元,使用relu激活函数;
第二、第二隐含层,该隐含层具有64个神经元,使用relu激活函数;
第三、第三隐含层,该隐含层具有64个神经元,使用relu激活函数;
第四、输出层是3个神经元,使用softmax激活函数,表示在三个分类上 的概率分布;
第五、编译模型
其中,模型使用交叉熵作为损失函数,公式为:
Figure BDA0002397277010000111
其中:y为因变量(真实值),
Figure BDA0002397277010000112
为预测值;
SGD随机梯度下降优化算法,公式为:
Figure BDA0002397277010000113
其中,xi为训练样本自变量,
yi为训练样本因变量,
θ为参数,
J(θ;xi;yi)为损失函数,
Figure BDA0002397277010000114
为θ的梯度,
η为学习率;
训练模型中将训练数据带入编译好的模型进行数据建模,设定模型训练 次数、批量大小,通过不断的训练模型,验证模型评估模型的准确率来不断 的更新模型参数,直至模型达到最优。
模型评估中评估机器学习模型的黄金标准是k倍交叉验证,使用k-fold 交叉验证在所有数据上评估神经网络模型的模型效果,选取k=10进行模型验 证,模型准确率达到95%以上。
模型测试中,将测试数据带入训练好的训练模型中进行测试,针对预测 结果与测试数据的真实数据进行比较,利用混淆矩阵计算模型召回率、准确 率,在多分类中的混淆矩阵的召回率的计算方法时,将某一类规定为“正”, 其它类均为“负”,通过以下公式进行计算:
准确率=将正类预测为正类/所有预测为正类,即准确率=TP/(TP+FP);
召回率=将正类预测为正类/所有正真的正类,即召回率=TP/(TP+FN);
其中,TP为将正类预测为正类,FN为将正类预测为负类,FP为将负类 预测位正类,TN为将负类预测位负类;
通过将测试数据进行预测之后的结果与测试数据的真实结果进行混淆矩 阵的构建,通过混淆矩阵计算模型准确率,可知预测模型的准确率可达90% 以上。
本发明通过以上选取的基于keras中深度学习多层前馈神经网络的 softmax多分类模型建模,可知,无论是模型验证还是模型测试模型的准确率 均能达到90%以上,且鉴于建模需求,着重关注敏感度较高的客户,需首先 保证模型准确率,准确抓取敏感度人群,对其进行优先安抚,通过实验结果 可知,模型准确率可达90%以上,说明可将多层前馈神经网络的softmax多分 类模型这一模型应用到敏感度预测项目中。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限 于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易 想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护 范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种抱怨敏感度建模预测方法,其特征在于:该方法包括以下步骤:
(1)数据获取:数据源为客服工单信息表和用电户这两个表中的数据,将用电户和客服工单信息表进行关联,将用户编号这一字段在客服工单信息表中进行添加,形成数据加工分析的客服工单基础信息表,用户编号这一字段加工为用户标识作为唯一标识;
(2)数据处理,包括以下步骤:
(a)数据清洗:对原始数据数据加工,获取“高敏感客户”、“中敏感客户”、“低敏感客户”和“静默客户”的敏感度数据,创建数据宽表,将数据转换为适合数据建模的格式化数据,格式化数据包括用户标识、所属供电单位、抱怨区域、用户地址、来电次数、来电平均时间间隔、投诉/举报占比、建议占比字段;
(b)缺失值处理:对步骤(a)中投诉、建议类别缺失值进行0的填充;
(c)唯一值处理:对于步骤(a)中唯一值字段进行删除:对供电单位等分类型字段进行唯一值检验,若为唯一值,则进行剔除,否则进行保留;
(d)异常值处理:对于步骤(a)中利用箱线图,对异常数据进行检测,将异常数据进行剔除;
(3)特征选取:分类型变量进行编码,对于单变量采用相关系数计算公式计算各个输入变量与输出变量之间的相关系数大小,探索各个输入变量与输出变量之间的相关性,进行特征的选取;
Figure FDA0002397274000000021
其中:ρx,y为相关系数;
x为自变量;
y为因变量;
n为样本数量;
(4)构建模型:从训练数据表中选取数据,将所选数据进行数据划分,80%作为训练数据,20%作为验证数据,其中,在训练数据中将对投诉和建议与其它类别的样本进行1:1选取,测试数据是从测试数据表中进行获取,定义神经网络模型,训练模型,直到到达最优,对模型进行评估,评估后,将测试数据带入训练好的训练模型中进行测试。
2.根据权利要求1所述的一种抱怨敏感度建模预测方法,其特征在于:步骤(2)中原始数据加工包括原始变量加工和衍生变量加工,原始变量加工:对于客服工单基础信息表中存在的用户标识、所属供电单位、抱怨区域、用户地址的客户基本信息,直接进行使用的字段,则只需从原始数据表中进行获取即可,无需加工;衍生变量加工:对于客服工单基础信息表中没有,且根据业务需求分析影响较大的因素,将其加工成基于原始变量的衍生变量,具体如下:
(1)总体来电次数:根据同一用户的所有95598客服工单数进行统计计算;
(2)总体来电平均时间间隔:根据同一用户的所有客服工单的最大时间与最小时间差与所有工单数的占比;
(3)总体投诉占比:根据同一用户的所有工单中发生“投诉”的工单数量与所有工单数的占比,“投诉”的工单数量包括投诉和举报两类工单数量;
(4)总体建议占比:根据同一用户的所有工单中发生“建议”的工单数量与所有工单数的占比;
(5)最近一月来电次数:最近一个月同一用户所有的95598客服工单数进行统计计算;
(6)最近一月投诉占比:最近一个月同一用户的所有工单中发生“投诉”的工单数量与最近一个月所有工单数的占比;
(7)最近一月建议占比:最近一个月同一用户的所有工单中发生“建议”的工单数量与最近一个月所有工单数的占比;
(8)最近三个月来电次数:最近三个月同一用户的所有95598客服工单数量进行统计计算;
(9)最近三个月投诉占比:最近三个月同一用户的所有工单中发生“投诉”的工单数量与最近三个月所有工单数占比;
(10)最近三个月建议占比:最近三个月同一用户的所有工单中发生“建议”的工单数量与最近三个月所有工单数占比;
(11)最近半年来电次数:最近半年同一用户的所有95598客服工单数量进行统计计算;
(12)最近半年投诉占比:最近半年同一用户的所有工单中发生“投诉”的工单数量与最近三个月所有工单数占比;
(13)最近半年建议占比:最近半年同一用户的所有工单中发生“投诉”的工单数量与最近三个月所有工单数占比;
(14)敏感度:发生过“投诉”和“举报”工单的用户定义为“高敏感客户”,发生过“建议”和“意见”工单的用户定义为“中敏感客户”,其余有来电记录但是没有投诉举报意见建议类型来电的用户定义为“低敏感客户”,没有来电记录的用户定义为“静默客户”。
3.根据权利要求1所述的一种抱怨敏感度建模预测方法,其特征在于:分类型变量进行编码中分类型变量包括不同字符串值,使用keras神经网络训练时进行以下处理步骤:
第一、检查类标签总共有多少个不同的字符串值;
第二、对字符串值进行数值编码,将字符串转化为数值;
第三、将数值进行热编码,即每个数字用向量来表示。
4.根据权利要求1所述的一种抱怨敏感度建模预测方法,其特征在于:定义神经网络模型如下:
第一、全连接层,该层具有128个神经元,使用relu激活函数;
第二、第二隐含层,该隐含层具有64个神经元,使用relu激活函数;
第三、第三隐含层,该隐含层具有64个神经元,使用relu激活函数;
第四、输出层是3个神经元,使用softmax激活函数,表示在三个分类上的概率分布;
第五、编译模型
其中,模型使用交叉熵作为损失函数,公式为:
Figure FDA0002397274000000041
其中:y为因变量,
Figure FDA0002397274000000042
为预测值;
SGD随机梯度下降优化算法,公式为:
Figure FDA0002397274000000043
其中,xi为训练样本自变量,
yi为训练样本因变量,
θ为参数,
J(θ;xi;yi)为损失函数,
Figure FDA0002397274000000051
为θ的梯度,
η为学习率。
5.根据权利要求1所述的一种抱怨敏感度建模预测方法,其特征在于:训练模型中将训练数据带入编译好的模型进行数据建模,设定模型训练次数、批量大小,通过不断的训练模型,验证模型评估模型的准确率来不断的更新模型参数,直至模型达到最优。
6.根据权利要求1所述的一种抱怨敏感度建模预测方法,其特征在于:模型评估中评估机器学习模型的黄金标准是k倍交叉验证,使用k-fold交叉验证在所有数据上评估神经网络模型的模型效果,选取k=10进行模型验证,模型准确率达到95%以上。
7.根据权利要求1所述的一种抱怨敏感度建模预测方法,其特征在于:模型测试中,将测试数据带入训练好的训练模型中进行测试,针对预测结果与测试数据的真实数据进行比较,利用混淆矩阵计算模型召回率、准确率,在多分类中的混淆矩阵的召回率的计算方法时,将某一类规定为“正”,其它类均为“负”,通过以下公式进行计算:
准确率=将正类预测为正类/所有预测为正类,即准确率=TP/(TP+FP);
召回率=将正类预测为正类/所有正真的正类,即召回率=TP/(TP+FN);
其中,TP为将正类预测为正类,FN为将正类预测为负类,FP为将负类预测位正类,TN为将负类预测位负类;
通过将测试数据进行预测之后的结果与测试数据的真实结果进行混淆矩阵的构建,通过混淆矩阵计算模型准确率。
CN202010135819.4A 2020-03-02 2020-03-02 一种抱怨敏感度建模预测方法 Pending CN111325405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010135819.4A CN111325405A (zh) 2020-03-02 2020-03-02 一种抱怨敏感度建模预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010135819.4A CN111325405A (zh) 2020-03-02 2020-03-02 一种抱怨敏感度建模预测方法

Publications (1)

Publication Number Publication Date
CN111325405A true CN111325405A (zh) 2020-06-23

Family

ID=71163940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010135819.4A Pending CN111325405A (zh) 2020-03-02 2020-03-02 一种抱怨敏感度建模预测方法

Country Status (1)

Country Link
CN (1) CN111325405A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861734A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 三方数据源的测试评估系统及方法
CN113254644A (zh) * 2021-06-07 2021-08-13 成都数之联科技有限公司 模型训练方法及非投诉工单处理方法及系统及装置及介质
CN113705199A (zh) * 2021-08-23 2021-11-26 北京仁科互动网络技术有限公司 工单优先级确认方法、装置、电子设备、介质及产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447364A (zh) * 2018-11-08 2019-03-08 国网湖南省电力有限公司 基于标签的电力客户投诉预测方法
CN109977151A (zh) * 2019-03-28 2019-07-05 北京九章云极科技有限公司 一种数据分析方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447364A (zh) * 2018-11-08 2019-03-08 国网湖南省电力有限公司 基于标签的电力客户投诉预测方法
CN109977151A (zh) * 2019-03-28 2019-07-05 北京九章云极科技有限公司 一种数据分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈子旸 等: "基于大数据挖掘的电力客户投诉敏感研究", 《中国新通信》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861734A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 三方数据源的测试评估系统及方法
CN111861734B (zh) * 2020-07-31 2024-05-03 重庆富民银行股份有限公司 三方数据源的测试评估系统及方法
CN113254644A (zh) * 2021-06-07 2021-08-13 成都数之联科技有限公司 模型训练方法及非投诉工单处理方法及系统及装置及介质
CN113254644B (zh) * 2021-06-07 2021-09-17 成都数之联科技有限公司 模型训练方法及非投诉工单处理方法及系统及装置及介质
CN113705199A (zh) * 2021-08-23 2021-11-26 北京仁科互动网络技术有限公司 工单优先级确认方法、装置、电子设备、介质及产品

Similar Documents

Publication Publication Date Title
CN111325405A (zh) 一种抱怨敏感度建模预测方法
CN107992968B (zh) 基于集成时间序列分析技术的电能表计量误差预测方法
CN107909299A (zh) 人伤理赔数据风险检测方法和系统
CN112464281B (zh) 基于隐私分组和情感识别的网络信息分析方法
CN110222733A (zh) 一种高精度的多阶神经网络分类方法及系统
CN116579640A (zh) 电力营销服务渠道用户体验评估方法及系统
CN112016769A (zh) 管理相对人风险预测以及信息推荐方法及装置
CN116468536A (zh) 一种自动化风险控制规则生成的方法
CN112330095A (zh) 一种基于决策树算法的质量管理方法
CN115062851A (zh) 基于多算法融合的排污异常监测方法及系统
CN113920366A (zh) 一种基于机器学习的综合加权主数据识别方法
CN117172508B (zh) 一种基于城运投诉工单识别的自动派单方法及系统
KR20200091508A (ko) 특허와 논문 데이터를 활용한 국가 및 기업들의 과학 기술력 진단 및 예측 방법
KR102406375B1 (ko) 원천 기술의 평가 방법을 포함하는 전자 장치
CN115689331A (zh) 一种基于mlp的输变电工程量合理性分析方法
KR102499182B1 (ko) 인공지능을 이용한 가계대출 사기/부실 상시감사지원시스템
CN114996371A (zh) 基于图论算法的关联企业反欺诈模型构建方法及系统
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控系统
CN113537759A (zh) 一种基于权重自适应的用户体验度量模型
CN115409226A (zh) 一种数据处理方法和数据处理系统
CN113449966A (zh) 一种石膏板设备巡检方法及系统
CN114974586B (zh) 一种人工智能量表的自动监测方法及系统
Tavakolirad et al. Key Performance Indicators Analysis Using Machine Learning Techniques
CN117474385B (zh) 一种基于大数据的智能制造能力成熟度评估方法及系统
CN114298481A (zh) 基于智能制造的设备管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200623

RJ01 Rejection of invention patent application after publication