CN106971310A

CN106971310A - 一种客户投诉数量预测方法及装置

Info

Publication number: CN106971310A
Application number: CN201710156129.5A
Authority: CN
Inventors: 许鑫; 孙志杰; 王莉; 巩冬梅; 张凌宇; 刘晓伟; 傅军; 卢彦旭
Original assignee: State Grid Corp of China SGCC; North China Electric Power Research Institute Co Ltd; Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; North China Electric Power Research Institute Co Ltd; Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd
Priority date: 2017-03-16
Filing date: 2017-03-16
Publication date: 2017-07-21

Abstract

本发明提供了一种客户投诉数量预测方法及装置，用于对预测包括当前日期的未来n天的电网客户投诉数量进行预测，方法包括：获取当前日期前的预设时间段m天内各投诉类工单每天的投诉量数据作为基础数据；对基础数据进行时差处理根据皮尔森相关系数确定各投诉类工单的时差指数；根据确定的时差指数和各投诉类工单每天的投诉量数据确定各投诉类工单的预测原始数据；对确定的预测原始数据进行主成分分析确定主成分数据；利用多层神经网络算法对确定的主成分数据进行计算确定预测值集；对确定的预测值集求平均确定最终预测值作为包括当前日期的未来n天的电网客户投诉数量。本发明可以有效的进行未来投诉数量的预测，提前预警投诉亦可提醒相关管理人员，增加客户服务人员，提升应对大范围投诉能力。

Description

一种客户投诉数量预测方法及装置

技术领域

本发明涉及数据处理技术，具体的讲是一种客户投诉数量预测方法及装置。

背景技术

如何更好的“预防投诉”、“处理投诉”一直以来是提升客户满意度的难点，是提升企业形象的重中之重。对于企业而言，消弭“投诉”于未至，是最好的应对措施。然而无法提前获知投诉的发生，这一切都将是空谈。那么如何在投诉发生之前进行获知，是其中的关键。对投诉数量进行预测。可以提前对客户进行安抚，并及时改进存在问题，将服务关口前移。

目前最为常用的预测算法为：时间序列算法预测模型和多元线性回归算法预测模型，其中以时间序列算法为基础的预测模型应用的最为广泛。

时间序列算法在诸如银行业、金融业、互联网行业均有大量的应用，许多预测模型的算法为时间序列算法。时间序列算法通过散点图、自相关(Auto-CorrelationFunction)、偏自相关(Partial Auto-Correlation Function)检查序列的平稳性，根据平稳性特点确定是否需要进行差分处理及差分阶数。当序列是非平稳、增长趋势、下降趋势，则需要进行差分处理。而数据序列存在异方差，则需要进行技术处理，保证自相关(Auto-Correlation Function)、偏自相关(Partial Auto-Correlation Function)函数结果无显著异于零。时间序列算法的本质是通过自回归与移动平均的过程，进行未来值的预测，从算法的本质上来说，时间序列对于突然性的投诉量骤减与暴增没有任何预测性。时间序列的预测是建立在对于“长期趋势”、“季节变动”、“循环变动”的识别，而对于“不规则变动”预测性很差。通过梳理某电力公司2015年7月至2016年9月的投诉数据及图1投诉量/天可知，大多数投诉数据的变动性很大，且没有明显的长期趋势或是季节性变化。

由多元线性回归模型原理可得，使用多元线性回归模型的本质是将自变量与因变量的关系使用线性回归的方式达成拟合。就投诉预测这一目标而言，其一，自变量与因变量之间本来就并不是线性关系，回归拟合的方式并不能真正的体现自变量与因变量的关系。其二，在实际情况中往往自变量选择是一个困难的问题，大量自变量中的灰色相关度彼此之间相差不大，大量选择自变量则无法很好的进行拟合，少量选择自变量则无法准确进行预测。

发明内容

为将投诉消弭于未发生之时，提前预警投诉亦可提醒相关管理人员，提升应对大范围投诉能力，本发明实施例提供了一种客户投诉数量预测方法，用于对预测包括当前日期的未来n天的电网客户投诉数量进行预测，方法包括：

获取当前日期前的预设时间段m天内各投诉类工单每天的投诉量数据作为基础数据；

对所述的基础数据进行时差处理根据皮尔森相关系数确定各投诉类工单的时差指数；

根据确定的时差指数和所述的各投诉类工单每天的投诉量数据确定各投诉类工单的预测原始数据；

对确定的预测原始数据进行主成分分析确定主成分数据；

利用多层神经网络算法对确定的主成分数据进行计算确定预测值集；

对确定的预测值集求平均确定最终预测值作为包括当前日期的未来n天的电网客户投诉数量。

本发明实施例中，所述的对所述基础数据进行时差处理根据皮尔森相关系数确定各投诉类工单的时差指数包括：

根据所述的基础数据确定时间段m天内各日期前包括各当前日期的n天的投诉量数据y和统计天数取值为[1，m]和[Σ2，Σm]的投诉量数据x；

确定各投诉类工单的投诉量数据y和投诉量数据x的皮尔森相关系数；

将各投诉类工单的皮尔森相关系数最大值对应的统计天数作为所述各投诉类工单的时差指数。

本发明实施例中，所述的根据确定的时差指数和各投诉类工单每天的投诉量数据确定各投诉类工单的预测原始数据包括：

将确定的时差指数作为各投诉类工单在当前日期前的统计天数；

根据确定的统计天数和各投诉类工单每天的投诉量数据确定各投诉类工单的预测原始数据。

本发明实施例中，所述的利用多层神经网络算法对确定的主成分数据进行计算确定预测值集包括：

将所述的主成分数据作为自变量，采用70％训练30％检测0％坚持进行区间划分，利用多层神经网络算法确定预测值集。

本发明实施例中，所述的方法包括：

利用SPSS工具进行所述主成分分析以及利用多层神经网络算法进行计算确定预测值集。

本发明实施例中，所述的对确定的预测值集求平均确定最终预测值作为包括当前日期的未来n天的电网客户投诉数量包括：

去除预测值集中的最小5％和最大5％，对剩余的90％预测值集求平均值确定最终预测值。

同时，本发明还提供一种客户投诉数量预测装置，用于对预测包括当前日期的未来n天的电网客户投诉数量进行预测，装置包括：

数据获取模块，用于获取当前日期前的预设时间段m天内各投诉类工单每天的投诉量数据作为基础数据；

时差处理模块，用于对所述的基础数据进行时差处理根据皮尔森相关系数确定各投诉类工单的时差指数；

原始数据确定模块，用于根据确定的时差指数和所述的各投诉类工单每天的投诉量数据确定各投诉类工单的预测原始数据；

主成分分析模块，用于对确定的预测原始数据进行主成分分析确定主成分数据；

预测值集确定模块，用于利用多层神经网络算法对确定的主成分数据进行计算确定预测值集；

投诉数量确定模块，用于对确定的预测值集求平均确定最终预测值作为包括当前日期的未来n天的电网客户投诉数量。

本发明实施例中，所述的时差处理模块包括：

基础数据处理单元，用于根据所述的基础数据确定时间段m天内各日期前包括各当前日期的n天的投诉量数据y和统计天数取值为[1，m]和[Σ2，Σm]的投诉量数据x；

皮尔森系数确定单元，用于确定各投诉类工单的投诉量数据y和投诉量数据x的皮尔森相关系数；

时差指数确定单元，用于将各投诉类工单的皮尔森相关系数最大值对应的统计天数作为所述各投诉类工单的时差指数。

本发明使用神经网络算法作为基础，进行了投诉预警模型的构建，可以有效的进行未来投诉数量的预测。使用本发明进行类似投诉这样的重要指标预测，将服务关口前移变成可能，在大量投诉尚未发生时，提前进行预知，并采取相应措施进行处理，将投诉消弭于未发生之时。提前预警投诉亦可提醒相关管理人员，增加客户服务人员，提升应对大范围投诉能力。

发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为电力公司每天的投诉量曲线图；

图2为本发明公开的一种客户投诉数量预测方法的流程图；

图3为本发明实施例中预警模型框图；

图4为本发明实施例中神经网络结构示意图；

图5为本发明实施例中神经元示意图；

图6为本发明实施例中仿真测试结果与真实值比对图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图2所示，本发明公开了一种客户投诉数量预测方法，用于对预测包括当前日期的未来n天的电网客户投诉数量进行预测，方法包括：

步骤S101，获取当前日期前的预设时间段m天内各投诉类工单每天的投诉量数据作为基础数据；

步骤S102，对基础数据进行时差处理根据皮尔森相关系数确定各投诉类工单的时差指数；

步骤S103，根据确定的时差指数和各投诉类工单每天的投诉量数据确定各投诉类工单的预测原始数据；

步骤S104，对确定的预测原始数据进行主成分分析确定主成分数据；

步骤S105，利用多层神经网络算法对确定的主成分数据进行计算确定预测值集；

步骤S106，对确定的预测值集求平均确定最终预测值作为包括当前日期的未来n天的电网客户投诉数量。

本发明实施例中，步骤S102对基础数据进行时差处理根据皮尔森相关系数确定各投诉类工单的时差指数包括：

将各投诉类工单的皮尔森相关系数最大值对应的统计天数作为各投诉类工单的时差指数。

将确定的时差指数作为各投诉类工单在当前日期前的统计天数，根据确定的统计天数和各投诉类工单每天的投诉量数据确定各投诉类工单的预测原始数据。

本发明使用神经网络算法作为基础，进行了投诉预警模型的构建。通过对于模型的检验及模型预测值评估，可以有效的进行未来投诉数量的预测。

目前最为常用的预测算法为：时间序列算法预测模型和多元线性回归算法预测模型。时间序列算法在诸如银行业、金融业、互联网行业均有大量的应用，许多预测模型的算法为时间序列算法。

时间序列算法：

时间序列是指以时间先后顺序排列的一组统计数据。时间序列分析则是一种变动的分析过程，其中任何时间的数值都是许多不同种类因素的影响结果。但是，在做预测及分析时，没有办法对所有因素的影响进行评估与分析，无法确定每一种影响因子影响作用的大小与影响的权值。所以，时间序列分析将所有的影响因子分为以下类别：长期趋势变动Tt、季节变动St、循环变动Ct、不规则变动It。

时间序列常常有以下几种组合形式。

加法型：

y_t＝T_t+S_t+C_t+I_t

乘法型：

y_t＝T_t*S_t*C_t*I_t

混合型：

y_t＝T_t*S_t*C_t+I_t或y_t＝T_t+S_t*C_t*I_t

ARIMA时间序列算法包括了自回归过程AR、移动平均过程MA、以及差分过程DX＝diff(y,i)。可以表达为：

Φ(L)(Δ^dy_t)＝θ₀+Θ(L)u_t

其中，Φ(L)为p阶的自回归模型，Θ(L)为q阶移动平均模型，Δ^dy_t为对于预测值y_t进行d次差分后的表现为一个移动自回归过程，且平稳可逆。

AR模型表达式：

y_t＝a₁y_t-1+a₂y_t-2+...+a_py_t-p+U_t

其中U_t为残差项的线性函数。

使用后移算子可将公式表达为：

y_t＝a₁Ly_t+a₂L²y_t+...+a_pL^py_t+U_t

可将公式写为：

φ(L)y_t＝U_t

MA模型表达式：

y_t＝U_t-θ₁U_t-1-θ₂U_t-2...-θ_qU_t-q

使用后移算子可将公式表达为：

y_t＝(1-θ₁L₁-θ₂L₂...-θ_qL_q)U_t

可将公式写为：

y_t＝Θ(L)U_tt

现有的ARIMA时间序列预测模型的技术方案包括：

1)时间序列差分/平稳处理：

通过散点图、自相关(Auto-Correlation Function)、偏自相关(Partial Auto-Correlation Function)检查序列的平稳性，根据平稳性特点确定是否需要进行差分处理及差分阶数。当序列是非平稳、增长趋势、下降趋势，则需要进行差分处理。而数据序列存在异方差，则需要进行技术处理，保证自相关(Auto-Correlation Function)、偏自相关(Partial Auto-Correlation Function)函数结果无显著异于零。

2)模型参数阶数识别：

ARIMA(p,d,q)模型中参数p为自回归项，参数q为移动平均项数，参数d为时间序列成为平稳时所做的差分次数。将根据数据序列的自相关函数与偏相关函数的截尾、拖尾特性进行ARIMA(p,d,q)模型参数的设定，其结构组成的基本准则如下表：

采用最小二乘法进行具体的阶数估计，具体函数如下：

θ₁θ₂...θ_p使得残差平方和最小。如果时间序列有季节性变化特点，则也需要确定P与Q的取值。

3)模型检验：

通过构造box-pierce的修正统计量Q来进行残差序列白噪声检验。

时间序列的本质是通过自回归与移动平均的过程，进行未来值的预测，从算法的本质上来说，时间序列对于突然性的投诉量骤减与暴增没有任何预测性。时间序列的预测是建立在对于“长期趋势”、“季节变动”、“循环变动”的识别，而对于“不规则变动”预测性很差。而通过梳理“国网冀北电力有限公司”2015年7月至2016年9月的投诉数据及图1投诉量/天可知，大多数投诉数据的变动性很大，且没有明显的长期趋势或是季节性变化。

多元线性回归模型：

回归是一种研究因变量与自变量之间的关系，通过回归方程的方式表达自变量与因变量之间依存关系。多元线性回归模型则是某一因变量与多个自变量之间的相互关系。

y＝β₀+β₁x₁+...+β_px_p+ε

其中，y为因变量，是随机观察值，b₀为常数，β_i为偏回归系数。设有p个自变量，其向量表达为(x₁,x₂…x_p)，有n组观察数据。其中第i组的观察数据为(y_i,x_i1,x_i2…x_ip)。则可以假定使用线性方式表达因变量与自变量之间关系：

ε_i服从正态分布，是模型是否成立的评判值。

多元线性回归模型将有如下四种基础假设：

假设一：

E(u_i)＝0,i＝1,2,...，n

假设二：

Cov(u_i,u_j)＝E(u_i,u_j)＝0,i≠j,i,j＝1,2,...,n

使用矩阵表达如下：

假设三：

Cov(u_i,x_j)＝0,i＝1,2,...,n,j＝1,2,...,m

则随机扰动项u与自变量x₁,x₂,...,x_m之间相互独立。

假设四：

r(X)＝m,m<n

即x₁,x₂,...,x_m之间两两相互独立。

多元线性回国模型的技术方案：

1.自变量选择

在建模时，首先将进行自变量的选择。自变量筛选方法常用有如下两种。

逐步回归法：

将预测目标y与所有的未筛选自变量x_k(k＝1,2,3...,m)分别建立两两对应的一元回归线性方程。

y＝β₀+β₁x₁+u

y＝β₀+β₁x₂+u

...

y＝β₀+β₁x_m+u

则将选择其中R²最大的x_n(n≤m)作为第一个已被筛选的自变量。

而后，将x_n(n≤m)与剩余的m-1个自变量组成m-1个二元线性回归方程。

y＝β₀+β₁x_n+β₂x₁+u

y＝β₀+β₁x_n+β₂x₂+u

...

y＝β₀+β₁x_n+β₂x_m-1+u

则我们将选择其中R²最大的x_i(i≤m,i≠n)作为第二个已被筛选的自变量。

依次类推，将逐步筛选得出相应自变量，直到后续的新自变量边际贡献值较小或是模型以及满足需求，则完成自变量的筛选。

灰色关联度方法：

即为根据灰色关联度选择自变量的方法，首先计算y与所有未筛选自变量x_k(k＝1,2,3...,m)的灰色关联度，可得ε₁，ε₂，ε₃，...ε_m给定一阈值ε_n，小于阈值则淘汰，大于阈值则选取。

将选取的自变量设为z₁，z₂，z₃...z_m，计算z_k中两两之间的灰色关联度给定一阈值ε_o当时，将其视为同一类自变量。从而将已被选择自变量会分为诸多个相应子类。从每一个子类中选择一个代表自变量作为最后进入多元线性模型的自变量。

2.多元线性回归模型系数估计：

采用最小二乘法进行参数向量B的估计。设残差为E则：

使用最小二乘法则：

根据极值原理，上式对于B求偏导且B＝0：

故可得：

3.多元线性回归模型检验：

常用为复相关系数检验法(R)、与F检验

R描述了自变量与因变量之间的线性相关程度。

F检验则是验证假设β₁＝β₂＝β₃...＝β_m＝0是否成立。

由多元线性回归模型原理可得，使用此模型的本质是将自变量与因变量的关系使用线性回归的方式达成拟合。就投诉预测这一目标而言，与使用神经网络算法进行对比，可得其一自变量与因变量之间本来就并不是线性关系，回归拟合的方式并不能真正的体现自变量与因变量的关系。而神经网络算法则是基于非线性的建立自变量与因变量之间的模型，很好的解决了这个问题。其二，在实际情况中往往自变量选择是一个困难的问题，大量自变量中的灰色相关度彼此之间相差不大，大量选择自变量则无法很好的进行拟合，少量选择自变量则无法准确进行预测。而神经网络算法则可以通过多层的网络结构处理更多、更复杂的自变量与因变量的关系。

下面结合具体的实施例对本发明技术方案作进一步详细说明，本实施例将以某电力公司的投诉工单预测作为实施应用试点。

如图3所示，为本实施例中的投诉量预警模型构筑示意图，本实施例的数据处理过程如下表：

数据类型	处理过程	处理结果
			基础工单数据	时差数据处理	原始数据
原始数据	降维/主成分分析	主成分
			主成分	神经网络百次计算	预测值集
预测值集	去除最大最小5％后再求平均值	优化后预测值

时差处理：

相关因子时差分析：

设t为当前时间，n为因变量(预测)时间与自变量时间的差值，单位为“天”。为时间差为n的因变量预测值，f_n(x_t)为时间差为n的预测函数：

设l为最佳因变量时间与自变量时间的差值，则当n＝l：

设p_n(x_t-n,y_t)为计算pearson相关系数函数，它将计算出y_t(t日实际值)与x_t-n(t-n天自变量)之间的pearson相关系数函数，n∈[1，t-1]

由上可得n＝l时：

|p_l(x_t-l,y_t)|＝max{|p₁(x_t-1,y_t)|,|p₂(x_t-2,y_t)|...|p_l(x_t-l,y_t)|...|p_t(x₁,y_t)|}

故称l为预测模型自变量的时差指数，当自变量与因变量之间的时间差为时差指数l时，序列X(t-l)与序列Y(t)的pearson相关系数最大。

同时，由于无法从业务逻辑角度判定L的取值区间、取值类型，本发明实施例中，在初次筛选时，选择的最长区间为9，将L的取值选取范围设定为[1，9]。存在某个时间区间作为因子的可能性，故也需要考虑取值范围[Σ2，Σ9]。

本实施例的目的是预测未来7天的投诉量，例如：需要预测9月1日-9月7日的投诉总量，当L＝Σ3时，选取8月29日-8月31日的“故障报修”工单总量作为因子预测。

相关因子与预测目标相关系数的计算：

设L为自变量与因变量之间的时间差，l的取值区间为[1，9]和[Σ2，Σ9]，l∈{1,2,3,4,5,6,7,8,9,Σ2,Σ3,Σ4,Σ5,Σ6,Σ7,Σ8,Σ9}则：

L＝1时，取值为t-1日的自变量总量。

L＝2时，取值为t-2日的自变量总量。

…

L＝Σ2时，取值为t-1日与t-2日的自变量两天总量之和。

L＝Σ3时，取值为t-1日、t-2日、t-3日的自变量三天总量之和。

…

得到y_t、x_t-1、x_t-2、x_t-3、x_t-4、x_t-5、x_t-6、x_t-7、x_t-8、x_t-9、x_Σ2、x_Σ3、x_Σ4、x_Σ5、x_Σ6、x_Σ7、x_Σ8、x_Σ9。本实施例中，y_t为各日期前7天的投诉总量，如8月25-8月31的投诉量，8月24-8月30的投诉量，8月23-8月29的投诉量，依次类推。将y_t依次与x_i计算pearson相关系数，其中求得时差指数l的取值，即相关系数最大即可。

如果所得结果为x_Σ9则扩大选取范围，直到找到合适取值为止。

将所有经过筛选的自变量按照上述步骤，进行时差指数l的计算可得下表。

主成分分析：

主成分分析基本原理：主成分分析(Principal Component Analysis)简称为PCA，其利用降维的方法，将多个互相非独立的数据集，转化为相互之间独立的数据集。这些相互独立的数据集便是原先互相非独立数据集的主成分。原始数据通过线性组合的方式，得到主成分，且主成分相互之间是独立的，这样既可以保证主成分中保留了原始数据的数据特性，又保证了其独立性。

对原始数据观测p个变量，n个样本的原始数据资料矩阵。

其中：

PCA便是将上述变量转化为综合变量：

F₁＝a₁₁x₁+a₁₂x₂+...+a_1px_p

F₂＝a₂₁x₁+a₂₂x₂+...+a_2px_p

...

F_P＝a_p1x₁+a_p2x₂+...+a_ppx_p

简写为：

F_j＝a_j1x₁+a_j2x₂+...+a_jpx_p,j＝1,2,...,p

其上满足：

1.F₁，F₂，…,F_J之间相互独立。

2.F₁，F₂，…,F_J其方差呈逐个递减，我们称F1为第一主成分，F2为第二主成分，依次类推。

3.a_k1 ²+a_k2 ²+...+a_kp ²＝1,k＝1,2,...p其中aij为主成分系数。

在构建预测模型时，本发明实施例中中选取“累计贡献率”等于100％作为标准，即选取全部降维数据，进行原始数据降维与主成分分析。进行主成分分析，可以将原始的数据集(自变量组)降维得出若干个主成分Zi。

本发明实施例使用IBM SPSS Statistics为工具进行主成分分析。

神经网络分析：

BP神经网络基本原理：神经网络算法广义上来说，它是人工对于大脑神经的模拟，它通过构筑与大脑神经网络类似的信息处理单元，来进行大量信息的并行分布式处理。这一种模型依靠非线性的系统方式，通过节点与节点之间突触联接关系的调整，达到对于大脑神经系统处理信息方式的模拟。

图4为本发明实施例中的神经网络结构示意图。它由三部分组成，“输入层”、“输出层”和“隐藏层”，通过神经元之间联接存储的权值与阈值，来进行训练结果的保存。模型在培训过程中通过迭代的方式，不断的调整神经元之间联接存储的权值与阈值，使其模型的预测值尽可能的逼近实际值，达到算法模型的学习效果。

BP神经网络的全称为Back Propagation Neural Network，是由Rumelhart和McCelland为首的科学家小组在1986年提出。BP神经网络是一种“多层前馈式神经网络”，其使用“误差逆传播算法”进行神经网络训练，这也是目前被广泛使用的神经网络算法之一。^[3]它的特点是在进行学习时使用“梯度下降法”，用负梯度方向为搜索方向，调整神经网络中的权值、阈值，使其接近目标值。

BP神经网络的神经元将具有三个基本功能，即“修改权值”、“求和”及“转移”。图5神经元示意图中，X_i为神经元i的系统输入；W_ji为神经元i与j联接的权值；其中B_j为系统中神经元j的阈值；f(·)为传递函数；yj为神经元j的输出；Sj为神经元j的输入值。

其中Sj为：

由此可得：

X＝[x₁x₂...x_i...x_n]^T

W_j＝[w_j1w_j2...w_ji...w_jn]

BP神经网络算法由两个过程组成，其一为数据流的正向传播即为数据流的向前计算，其二为对于误差信号的逆向传播，即为误差的反向计算。正向传播时，数据的传输方向与基础神经网络算法方向一致，数据依次经过“输入层”、“隐藏层”、“输出层”，且每层神经元只受到上一层神经元的影响。当输出层输出结果不在期望范围内时，则进行误差的反向传播。在这个循环中，两个过程交替的进行，使用最速下降法在权向量空间中，寻找到误差函数的极小值。在这一个迭代及动态检索中，完成信息的获取与记忆的过程。

运行百次神经网络计算：本发明实施例中使用MLP算法模型“神经网络算法”，使用已降维的原始数据既主成分Zi作为预测的自变量/协变量。采用70％训练30％检测0％坚持区间划分。

本实施例通过使用JAVA语言的方式使用IBM SPSS Statistics为工具进行预测模型搭建神经网络模型，相关配置信息如下表3。

表3

配置项	参数
		区间	70％训练30％检验0％坚持
网络体系	单层隐藏层
		最初学习率	0.01
学习率的较低边界	0.001
		时程学习率减低	10
动能	0.9
		间隔中心点	0
间隔偏移量	±0.5
		培训错误最小相对变化	0.0001
培训误差率最小相对变化	0.001
		隐藏层激活函数	双曲正切
输出层激活函数	恒等函数

使用IBM SPSS Statistics为工具进行神经网络计算，而后进行百次神经网络计算，得到预测值集。

预测值集优化：将得到的百次运算结果去除最小5％与最大5％后，将剩余的90％预测值求平均值，将得到最终预测值。

以某电力公司投诉类工单一周总量为预测目标，使用本发明方法，构建预测模型。

按照国网公司2016年发布的《国家电网公司95598客户服务业务管理办法》，客户服务诉求划分为“信息查询”、“业务咨询”、“故障报修”、“投诉”、“举报”、“意见”、“建议”、“表扬”、“服务申请”等九大类一级工单。将通过以上工单前期的信息数据作为基础，预测未来“投诉”类别工单一周的总量。由于数据量的原因，将选择上述一级子类中的“高压故障”、“低压故障”、“电能质量故障”、“客户内部故障”、“用电信息变更”、“预约业务”、“用电异常核实”、“用电服务需求”、“生产类非紧急业务”、“催办投诉”、“催办服务申请”、“催办故障报修”、“催办意见”、“行风廉政”、“窃电”、“表扬”、“计量装置”、“停电信息”、“电费抄核收”、“用电业务”、“用户信息”、“法规制度”、“新兴业务”、“企业信息”、“用电常识”等25个二级子类作为预测模型的自变量。

时差处理：将上文梳理出的25个二级子类工单，进行时差处理。以故障报修-电能质量故障工单为例，进行数据处理，得到相对应原始数据为例进行说明。

表4

投诉量/周	预测日期	1	2	…	9	Σ2	Σ3	…	Σ9
										113	2015/7/10	5	8	…	2	13	16	…	25
122	2015/7/11	13	5	…	0	18	26	…	36
										123	2015/7/12	26	13	…	1	39	44	…	62
115	2015/7/13	81	26	…	1	107	120	…	142
										94	2015/7/14	109	81	…	3	190	216	…	250
87	2015/7/15	72	109	…	2	181	262	…	319
										83	2015/7/16	30	72	…	3	102	211	…	347
…	…	…	…	…	…	…	…	…	…

计算故障报修-电能质量故障工单不同L取值的pearson相关系数，计算投诉量/周与统计时间长度为1、2、3…...Σ9的pearson相关系数，即计算表4中左侧列投诉量/周与与统计时间长度为1、2、3…...Σ9各列数据的pearson相关系数，得表5所示数据。

表5

由于l＝Σ9时pearson相关系数最大，但是，在数据规律上能发现，可能Σ9且并不是真正的时差指数，需要进行拓展的计算，得下表6。

工单类别	工单一级类别	时间统计偏差长度L	pearson相关系数
				故障	电能质量故障	Σ10	0.606
故障	电能质量故障	Σ11	0.612
				故障	电能质量故障	Σ12	0.621
故障	电能质量故障	Σ13	0.631
				故障	电能质量故障	Σ14	0.638
故障	电能质量故障	Σ15	0.641
				故障	电能质量故障	Σ16	0.641
故障	电能质量故障	Σ17	0.64
				故障	电能质量故障	Σ18	0.637
故障	电能质量故障	Σ2-15	0.638
				故障	电能质量故障	Σ3-15	0.637

注：由于数据序列长度发生变化，故此处pearson相关系数仅仅做同长度序列比较。

可得，时差指数l＝Σ15。

将前述梳理出的25个二级子类工单按照上述步骤，进行相关因子的时差指数l计算可得下表6。

表6

注：不包括数据不全、数据量过小、工单分类变化等二级分类工单。

根据上表，可得具体的基础工单数据收集规则。设当前日期(服务器日期)为t，时差指数为l，其余工单i日总量为d_i，如表7所示：

表7

例：处理“用电常识”基础工单数据，数据处理规则为则当2016/12/7日预测投诉量/周时，将合计2016/12/3(t-4)、2016/12/4(t-3)、2016/12/5(t-2)、2016/12/6(t-1)四日的“用电常识”工单。

获得上述的时差数据后，JAVA调用SPSS实现主成分分析，本实施例采用IBM SPSSstatistics作为计算工具进行计算。IBM SPSS statistics安装目录中有可供JAVA调用的Jar包spssjavaplugin.jar，作为classpath引用即可。其后在JAVA程序中使用代码，模拟执行SPSS命令，该命令由SPSS脚本组成，组成类似SQL语句形式的调用方式。

主成分分析SPSS脚本如下：

同时，本发明实施例使用JAVA代码实现百次神经网络计算。

SPSS脚本如下：

JAVA代码如下：

预测值集数据处理规则为先按照预测值大小进行排序，然后去除5个最大值与5个最小值。剩余90个预测值求取平均数即为真正的预测值。

神经网络参数信息如表8所示。

表8

在本发明使用相对误差来进行预测结果准确度评价。相对误差指的是测量所造成的绝对误差与被测量〔约定〕真值之比乘以100％所得的数值，以百分数表示。一般来说，相对误差更能反映测量的可信程度。计算公式如下，其中δ为相对误差，为预测值，y_t为实际值：

预测值相对误差表如下：

使用某电力公司2016年10月份至2016年12月份的真实数据，按照模型实际环境进行仿真测试。以此类推，进行2016年9月25日至2016年12月24日的仿真测试。以2016年10月1日预测结果为例，仿真测试BP神经网络区间划分如下表：

本发明实施例中仿真测试结果与真实值对比如图6所示.

预测值相对误差表如下：

从图6得，误差较大区间为下表：

开始时间	结束时间	误差原因
			2016/9/25	2016/10/7	国庆假期影响
2016/10/15	2016/10/17	工单系统维护
			2016/11/20	2016/12/8	缴费系统故障

结合实际情况，2016年10月1日至2016年10月7日为国庆假期期间，由于该电力公司在国庆假期期间对于欠费用户不执行停电处理，且由于其他的假期影响，导致国庆假期期间的投诉量骤减。针对此情况，本发明在预测自变量中添加了长假期影响指数、短假期影响指数及缴费催费影响指数。如下表所示。

种类	时间	影响
			长假期影响指数	每年国庆、春节	当天
短假期影响指数	元旦、劳动节、中秋等	当天
			催费缴费影响指数	每月25日出具缴费单	至下月1日

长假指数等于预测周期内包含影响日期天数。

例：2016年10月6日的长假影响指数为2(包含影响的日期：10月6日、10月7日)，2016年10月7日的长假影响指数为1。(包含影响的日期：10月7日)。

2016年10月15日至2016年10月17日由于工单系统计划维护，导致投诉量未计入系统。针对此类的特殊事件影响，本模型将添加两类特殊事件影响指数，其分别为“投诉量激增事件”及“投诉量骤减事件”，如下表所示。如果是诸如“电力缴费系统维护”等可预测的影响事件发生，则在事件发生前，提前进行相应影响日期录入。

种类	时间	影响
			激增事件指数	人工指定	当天
骤减事件指数	人工指定	当天

另外，本发明还提供一种客户投诉数量预测装置，其实现步骤同上述方法的实施，在此不再赘述。

本发明使用神经网络算法作为基础，进行了投诉预警模型的构建。通过对于模型的检验及模型预测值评估，可以有效的进行未来投诉数量的预测。使用本发明进行类似投诉这样的重要指标预测，将服务关口前移变成可能。在大量投诉尚未发生时，提前进行预知，并采取相应措施进行处理，将投诉消弭于未发生之时。提前预警投诉亦可提醒相关管理人员，增加客户服务人员，提升应对大范围投诉能力。针对因变量与自变量的关联系数关系，可以基于此进行因变量与自变量的关系研究。本发明提供了详细的理论基础、方法论及构建步骤，对于预测其他目标，按照本发明进行预测模型的构建，也可以得出完整有效的预测模型。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种客户投诉数量预测方法，用于对预测包括当前日期的未来n天的电网客户投诉数量进行预测，其特征在于，所述的方法包括：

对确定的预测原始数据进行主成分分析确定主成分数据；

2.如权利要求1所述的客户投诉数量预测方法，其特征在于，所述的对所述基础数据进行时差处理根据皮尔森相关系数确定各投诉类工单的时差指数包括：

3.如权利要求2所述的客户投诉数量预测方法，其特征在于，所述的根据确定的时差指数和各投诉类工单每天的投诉量数据确定各投诉类工单的预测原始数据包括：

4.如权利要求3所述的客户投诉数量预测方法，其特征在于，所述的利用多层神经网络算法对确定的主成分数据进行计算确定预测值集包括：

5.如权利要求3所述的客户投诉数量预测方法，其特征在于，所述的方法包括：

6.如权利要求1或5中任一权利要求所述的客户投诉数量预测方法，其特征在于，所述的对确定的预测值集求平均确定最终预测值作为包括当前日期的未来n天的电网客户投诉数量包括：

7.一种客户投诉数量预测装置，用于对预测包括当前日期的未来n天的电网客户投诉数量进行预测，其特征在于，所述的装置包括：

8.如权利要求7所述的客户投诉数量预测装置，其特征在于，所述的时差处理模块包括：

9.如权利要求8所述的客户投诉数量预测装置，其特征在于，所述的原始数据确定模块根据确定的时差指数和所述的各投诉类工单每天的投诉量数据确定各投诉类工单的预测原始数据包括：

10.如权利要求9所述的客户投诉数量预测装置，其特征在于，所述的预测值集确定模块利用多层神经网络算法对确定的主成分数据进行计算确定预测值集包括：

11.如权利要求10所述的客户投诉数量预测装置，其特征在于，所述的包括：

主成分分析模块利用SPSS工具进行所述主成分分析，预测值集确定模块利用SPSS工具进行多层神经网络算法计算确定预测值集。

12.如权利要求7或11中任一权利要求所述的客户投诉数量预测装置，其特征在于，所述的投诉数量确定模块对确定的预测值集求平均确定最终预测值作为包括当前日期的未来n天的电网客户投诉数量包括：