CN108268967A

CN108268967A - 一种话务量预测的方法和系统

Info

Publication number: CN108268967A
Application number: CN201710003888.8A
Authority: CN
Inventors: 李建星
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-01-04
Filing date: 2017-01-04
Publication date: 2018-07-10
Anticipated expiration: 2037-01-04
Also published as: CN108268967B

Abstract

本发明提供一种话务量预测的方法和系统，有助于使得话务量预测避免人为原因的影响，从而提高了话务量预测的精确度和稳定性。该方法包括：在采集周期内按采集时间间隔采集历史话务量；将该历史话务量形成为以采集日期为行、以采集时间点为列的矩阵，对该矩阵进行奇异值分解，以得到以采集日期为行、以采集日期为列的正交阵；通过使用该历史话务量而建模得到的线性回归模型，根据当前日的话务量来得到预测日的预测话务量，该预测日为该当前日的下一日，该线性回归模型为将第一回归参数与该当前日的话务量的乘积加上第二回归参数得到该预测日的预测话务量；输出该预测日的预测话务量。

Description

一种话务量预测的方法和系统

技术领域

本发明涉及计算机及软件技术领域，特别地涉及一种话务量预测的方法和系统。

背景技术

在企业对客户的服务过程中，呼叫中心的电话服务是一种重要的服务方式。其主要职责是负责在客户来电时，对客户的咨询、售后等业务问题，安排客服人员接起电话并解决客户的问题。

由于客服人员的工作安排主要依赖于每日的话务量，因此需要对话务量进行一个预测。话务量预测可以帮助企业客服部门进行排班，避免发生话务量较少但客服人员空闲较多的人力浪费的情况，或者避免发生话务量过大但客服人员不足而导致客户满意度降低等问题，诸如因客服人员不足以应对话务量而使得业务问题积压，最终导致客户投诉。而且，根据话务量来安排客服人员可以提升人员工作效率，降低企业成本。

目前，在现有技术中，日常运营中通常根据业务专家的经验来预测话务量，一般根据当前业务量(如订单量)的变化和专家经验来评估话务量。现有技术的主要步骤是：收集相关业务数据，如历史订单量、历史话务量、当前订单量等；根据专家经验预测话务量，如

日订单增长率＝(今日订单量-上月同日订单量)/上月同日订单

日预测话务量＝今日话务量×日订单增长率×经验系数

其中，经验系数，一般取1.1-1.2，即预留10％-20％的人力资源以预防话务量突然增长给业务运营造成影响。

现有技术方法的缺点是：依赖于专家经验的主观因素以及预测精度低、稳定性差。虽然依赖专家经验计算预测话务量具有一定的计算逻辑，但并没有在业务量和预测话务量之间建立一个真正有数据算法支持的模型和系统，具有明显的人为因素的随意性。以上例来说专家认为订单量和话务量之间存在关联，但是专家给出的计算逻辑是基于自己的经验判断，所以会造成预测不准确的结果。并且在发生预测偏差后，也无法针对原计算逻辑进行合理修正。现有技术中的专家经验方法不是一种有效稳定的、准确率高的话务量预测方法。受专家对业务理解和个人经验的影响，预测的准确率不能达到服务预期。

所以，如何找到一种以客观数据为基础的预测方法，使得能够稳定且较准确的预测话务量，成为一个重要的课题。

发明内容

有鉴于此，本发明提供一种基于奇异值分解的话务量预测的方法和系统处理拣货信息的方法和系统，有助于使得话务量预测不依赖专家等人的主观因素，避免人为原因的影响，提高了话务量预测的精确度和稳定性，从而使得有效地实现了客服人员排班、配置等运营策略，为企业实现资源最优化配置提供依据，降低企业成本，提升效益。

为实现上述目的，根据本发明的一个方面，提供了一种话务量预测的方法。

本发明的一种话务量预测的方法包括：采集历史话务量步骤：采集历史话务量，所述历史话务量为在采集周期内按采集时间间隔采集的话务量；数据预处理步骤：将所述历史话务量形成为以采集日期为行、以采集时间点为列的矩阵，对所述矩阵进行奇异值分解，以得到以所述采集日期为行、以所述采集日期为列的正交阵；话务量预测步骤：通过使用所述历史话务量而建模得到的线性回归模型，根据当前日的话务量来得到预测日的预测话务量，所述预测日为所述当前日的下一日，所述线性回归模型为将第一回归参数与所述当前日的话务量的乘积加上第二回归参数得到所述预测日的预测话务量；预测结果输出步骤：输出所述预测日的预测话务量。

可选地，所述话务量预测步骤还包括：分别以所述正交阵的第一列和所述采集周期内的每一日的话务量为已知值x和y，构造线性回归方程Y＝b1×x+b2，通过最小二乘法进行数据拟合，得到最优解b1、b2，其中b1为所述第一回归参数，b2为所述第二回归参数。

可选地，所述数据预处理步骤还包括：当对于某一采集日期某一采集时间点无法得到话务量时，将所述矩阵中对应点的值设为0。

可选地，所述数据预处理步骤还包括：将所述矩阵按一周的每天拆分成以所述采集日期为行、以所述采集时间点为列的7个子矩阵，所述7个子矩阵中的每一个子矩阵的行分别为所述采集周期内的周一、周二、周三、周四、周五、周六、周日，所述7个子矩阵中的每一个子矩阵的列依然为所述采集时间点，然后分别对所述7个子矩阵进行所述奇异值分解；以及所述话务量预测步骤还包括：通过所述最小二乘法分别对经所述奇异值分解后的各个所述正交阵的第一列和所述采集周期内的各个相应日的话务量进行数据拟合，以得到对应于所述7个子矩阵的所述第一回归参数b11、b12、b13、b14、b15、b16、b17，以及所述第二回归参数b21、b22、b23、b24、b25、b26、b27；当所述当前日分别为周一、周二、周三、周四、周五、周六、周日时，分别采用所述第一回归参数b11、b12、b13、b14、b15、b16、b17和所述第二回归参数b21、b22、b23、b24、b25、b26、b27来计算所述预测日的预测话务量。

可选地，所述方法还包括：将所述预测日的预测话务量加上所述预测日的预测残差以得到校正的所述预测日的预测话务量，其中所述预测残差为根据所述采集日期的预测话务量与真实话务量之差、采用时间序列预测算法而计算得到的对所述预测日的预测话务量的校正。

可选地，所述方法还包括：通过以下步骤来计算所述预测残差，计算所述采集周期内的每一日的预测话务量与其真实话务量之差，将所述差按每7天拆分为多个残差组，所述多个残差组中的每一个包括7个差值；将所述多个残差组输入所述时间序列预测算法来得到未来7天的预测残差组，从所述预测残差组中选择与所述预测日对应的所述预测残差。

可选地，所述时间序列预测算法为自回归积分滑动平均模型(AutoregressiveIntegrated Moving Average Model，即ARIMA)。

可选地，所述当前日为所述采集周期范围内的最后一日。

可选地，所述采集周期为365天，所述采集时间间隔为15分钟。

为实现上述目的，根据本发明的另一方面，提供了一种话务量预测的系统。

本发明的一种话务量预测的系统包括数据采集模块、数据预处理模块、话务量预测模块以及预测结果输出模块，其中，所述数据采集模块采集历史话务量，所述历史话务量为在采集周期内按采集时间间隔采集的话务量；所述数据预处理模块将所述历史话务量形成为以采集日期为行、以采集时间点为列的矩阵，对所述矩阵进行奇异值分解，以得到以所述采集日期为行、以所述采集日期为列的正交阵；所述话务量预测模块通过使用所述历史话务量而建模得到的线性回归模型，根据当前日的话务量来得到预测日的预测话务量，所述预测日为所述当前日的下一日，所述线性回归模型为将第一回归参数与所述当前日的话务量的乘积加上第二回归参数得到所述预测日的预测话务量；所述预测结果输出模块输出所述预测日的预测话务量。

可选地，所述话务量预测模块还包括：分别以所述正交阵的第一列和所述采集周期内的每一日的话务量为已知值x和y，构造线性回归方程Y＝b1×x+b2，通过最小二乘法进行数据拟合，得到最优解b1、b2，其中b1为所述第一回归参数，b2为所述第二回归参数。

可选地，所述数据预处理模块还包括：当对于某一采集日期某一采集时间点无法得到话务量时，将所述矩阵中对应点的值设为0。

可选地，所述数据预处理模块还包括：将所述矩阵按一周的每天拆分成以所述采集日期为行、以所述采集时间点为列的7个子矩阵，所述7个子矩阵中的每一个子矩阵的行分别为所述采集周期内的周一、周二、周三、周四、周五、周六、周日，所述7个子矩阵中的每一个子矩阵的列依然为所述采集时间点，然后分别对所述7个子矩阵进行所述奇异值分解；以及所述话务量预测模块还包括：通过所述最小二乘法分别对经所述奇异值分解后的各个所述正交阵的第一列和所述采集周期内的各个相应日的话务量进行数据拟合，以得到对应于所述7个子矩阵的所述第一回归参数b11、b12、b13、b14、b15、b16、b17，以及所述第二回归参数b21、b22、b23、b24、b25、b26、b27；当所述当前日分别为周一、周二、周三、周四、周五、周六、周日时，分别采用所述第一回归参数b11、b12、b13、b14、b15、b16、b17和所述第二回归参数b21、b22、b23、b24、b25、b26、b27来计算所述预测日的预测话务量。

可选地，所述话务量预测模块将所述预测日的预测话务量加上所述预测日的预测残差以得到校正的所述预测日的预测话务量，其中所述预测残差为根据所述采集日期的预测话务量与真实话务量之差、采用时间序列预测算法而计算得到的对所述预测日的预测话务量的校正。

可选地，所述话务量预测模块通过以下步骤来计算所述预测残差，包括：计算所述采集周期内的每一日的预测话务量与其真实话务量之差，将所述差按每7天拆分为多个残差组，所述多个残差组中的每一个包括7个差值；将所述多个残差组输入所述时间序列预测算法来得到未来7天的预测残差组，从所述预测残差组中选择与所述预测日对应的所述预测残差。

可选地，所述时间序列预测算法为自回归积分滑动平均模型。

可选地，所述当前日为所述采集周期范围内的最后一日。

根据本发明的技术方案，通过使用历史话务量而建模得到的线性回归模型，根据当前日的话务量来得到预测日的预测话务量，使得能够不依赖人为经验实现对话务量的预测；利用历史话务量，通过对由历史话务量构成的矩阵进行奇异值分解，并通过最小二乘法对经奇异值分解后的数据进行数据拟合，由此得到线性回归模型，使得进一步提高了话务量预测的精确度和稳定性，从而使得有效地实现了客服人员排班、配置等运营策略，为企业实现资源最优化配置提供依据，降低企业成本，提升效益。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施方式的话务量预测的方法的主要步骤的流程图；

图2示出了根据本发明实施方式的话务量预测的方法的采集周期内真实话务量与经过奇异值分解后得到的相关正交阵的第一列之间的线性相关性；

图3A示出了在根据本发明实施方式的话务量预测的方法中残差组的自相关函数(Auto Correlation Function，即ACF)；

图3B示出了在根据本发明实施方式的话务量预测的方法中残差组的与偏自相关函数(partial autocorrelation function，即PACF)；

图4示出了根据本发明实施方式的话务量预测的方法的话务量历史数据和话务量预测数据的示例；

图5A至图5B是根据本发明实施方式的话务量预测的方法的预测结果的示例图形输出；

图6是根据本发明实施方式的话务量预测的系统的主要组成部分的示意图；

图7是根据本发明实施方式的话务量预测的系统的整体流程图。

具体实施方式

以下结合附图对本发明的示范性实施方式做出说明，其中包括本发明实施方式的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施方式做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施方式的话务量预测的方法的主要步骤的流程图。在步骤S1中，对呼叫中心系统中的历史话务量数据进行采集，例如，按每15分钟对最近历史一年中的每天的话务量进行采集。可通过将提取-转换-加载(Extraction-Transformation-Loading,即etl)工具连接数据库，然后使用结构化查询语言(Structured QueryLanguages，即sql)方式获取数据。例如，可将采集后的数据后以文本文件形式存储到系统中，如:文件1.txt。表1为采集后的数据的示例。其中，行表示以15分钟为时间间隔的采集时间点；列表示采集日期；矩阵中交叉点的数字表示当前时间段采集到的话务量，如第一行第一列的值97表示1月1日在0:00-0:15之间的话务量。

采集时间点/采集日期	1月1日	1月2日	1月3日	1月4日	1月5日	……
							0:00	97	76	86	67	90	……
0:15	96	50	80	62	95	……
							0:30	80	31	74	53	55	……
0:45	63	30	50	48	51	……
							1:00	60	37	38	31	45	……
1:15	45	33	27	22	39	……
							1:30	20	13	20	21	21	……
1:45	32	26	19	18	14	……
							2:00	23	15	11	16	16	……
2:15	18	6	12	14	8	……
							2:30	17	5	17	4	9	……
……	……	……	……	……	……

表1历史话务量的矩阵示例

在步骤S2中，如果所采集的历史数据被形成为以采集时间点为行、以采集日期为列的矩阵，则对如表1所示的历史话务量的矩阵进行转置，即将所采集到的数据最终形成为以采集日期为行、以采集时间点为列的矩阵，以方便后续处理。转换后的结果如表2所示。

表2预处理后的历史话务量的矩阵示例

在步骤S3中，对步骤S2中得到的矩阵进行数据清洗。即为了保证数据合法性，如果对于某一采集日期某一采集时间点无法得到话务量时，则将该矩阵中对应点的值设为0，即完成数据清洗功能。

经过上述步骤后的历史话务量被形成为一个n×m的有效矩阵，在本实施例中，采集周期为365天，采集的时间间隔为15分钟，所以n＝365，m＝96。对于第i行数据，以向量x_i ^T＝(x_i1,x_i2,…,x_in)来表示。因此，本发明所要解决的问题是，已知x₁,x₂,…,x_n来预测x_n+1。由于所采集的话务量数据是一个时间序列向量，可考虑通过时间序列的相关算法进行预测。但是，因为数据样本是大维度的时间序列数据(例如，m＝96)，所以无法直接使用例如常见的向量自回归模型(vector autoregressive model，即VAR)和更一般化的向量自回归移动平均模型(vector autoregressive moving average model。因此考虑对原始数据进行降维，即考虑用更少的特征向量代替目前的样本数据，然后再采用合适的算法进行预测。以下是降维的具体过程，以一些基础向量f_k(k＝1,…,K)来表示原来的向量x_i，即如公式1所示：

x_i＝β_i1f₁+…+β_ikf_K+ε_i，i＝1，...，n 公式1

f_i，...，f_K∈R^m

其中，f_k是基础向量，ε_i是误差项，f_k从属于m阶实数子空间。通过最小化误差项，可以得到参数β，从而将原来的向量转化为新的基础向量。如公式2所示，使误差项最小化：

以上是本发明中进行降维的思想，在实施例中可用矩阵的SVD操作实现上述求解过程。SVD的原理是：对于m×n的矩阵X，经过SVD后，可以得到m×m的正交阵U、n×n的正交阵V^T以及m×n的对角阵S。

X＝USV^T 公式3

进一步将矩阵X中的向量x_i写成分解形式：

x_i＝s₁u_i1v₁+…+s_ru_irv_r 公式4

选择K项作为低阶近似解，即：

分解之后,U_k＝(U_1k，...，U_nk)^T，V_k＝(V_1k，...，V_mk)^T，S＝diag(S_i，...，S_m)，矩阵X的秩r＝rand(X)，其中r+1<k<m。在很多情况下，前10％甚至1％的奇异值的和占据了全部的奇异值之和的99％，所以即使K值远远小于原始矩阵X的秩r，也不损失数据信息，即矩阵的SVD操作实现了数据降维或数据压缩的效果。因此可以如公式6所述，用以下形式表示公式1中的参数：

β_ik＝s_ku_ik

f_k＝v_k

i＝1，...，n

k＝1，...，K 公式6

在本实施例中，选择K＝2，矩阵X的向量可以表示为

可以将对角线矩阵S处理为单位阵，即当i＝j时值为1，否则为0。因得到左奇异矩阵U(u1,u2)和右奇异矩阵V(v1,v2)。由于原矩阵X的行代表采集日期的话务量，因此矩阵U的u1、u2也体现了采集日期的话务量，而u1、u2按由大到小的顺序排列，即可以理解为u1包含的信息大于u2包含的信息。在本实施例中，原矩阵X的一行有96个数据特征，经SVD后只需要u1、u2两个特征即可，并且u1包含了大部分的信息，u2包含了小部分的信息。

根据上述原理，在步骤S4中，对矩阵进行SVD操作，将所采集到的话务量数据矩阵M(365×96)分解为U、V^T、S个矩阵，其中矩阵U为365×365的正交阵，矩阵S为365×96的对角阵，矩阵V^T为96×96的正交阵。对于分解后的矩阵，其在本发明的实施方式中的含义为：矩阵U中的第一列u1体现了采集周期内每一天的总话务量的平均波动情况，第二列u2体现了在U1的基础上的小范围的额外波动；矩阵V^T中的第一列v1体现了采集周期内一天中的各时段的总话务量的平均波动情况，第二列v2体现了在v1基础上的小范围额外波动。矩阵分解的目的是提取最能体现每日话务量变化的关键变量u1，从而实现对预测日的话务量的预测。

在步骤S5中，计算正交阵U的第一列u1数据与采集周期内每一天的话务量数据之间的线性相关性，可采用公式8计算该线性相关性：

其中，r_xy的取值范围为[-1,1]，r>0表示正相关，r<0表示负相关，|r|表示了变量之间相关程度的高低。特殊地，r＝1被称为完全正相关，r＝-1被称为完全负相关，r＝0被称为不相关。通常当|r|>0.8时，认为两个变量具有很强的线性相关性。

图2示出了根据本发明实施方式的话务量预测的方法的采集周期内真实话务量与经过奇异值分解后得到的相关正交阵的第一列之间的线性相关性。可见，经奇异值分解后的正交阵U的第一列u1与采集周期内每一天的话务量之间呈负相关的线性关系。由于矩阵U中的第一列u1体现了采集周期内每一天的总话务量的平均波动情况，所以可认为当前日的话务量u(t)与当前日的前一日的话务量u(t-1)之间也线性相关，其中t为当前日。通过回归出u(t-1)与u(t)之间的数学关系，从而能够对后一天的话务量进行预测，即得到u(t+1)，其中当前日的下一日即为本发明中的预测日。

因此，在步骤S6中，构造线性回归方程，

Y＝b1×x+b2 公式9

其中x为经奇异值分解后的正交阵U的第一列u1，Y为采集周期内每一天的话务量数据，通过最小二乘法，进行数据拟合，找到最优解的斜率b1和截距b2，从而得到根据当前日的话务量来预测当前日的下一日的话务量的线性回归模型，斜率b1和截距b2即分别为第一回归参数和第二回归参数。在进行预测时，如公式10所示，将当前日的话务量u(t)作为输入x带入该线性回归方程，即可得到预测日的预测话务量u(t+1)

u(t+1)＝b1×u(t)+b2 公式10

附加地，在实际处理中，为进一步提供预测的准确度，考虑到不同工作日对话务量的周期波动因素，提高正交阵U的第一列u1与采集周期内每一天的话务量的线性相关性，按一周的每天进行回归计算，即将由历史话务量数据构成的矩阵M按一周的每天拆分成以采集日期为行、以采集时间点为列的7个子矩阵。由此，7个子矩阵中的每一个子矩阵的行分别为采集周期内的周一、周二、周三、周四、周五、周六、周日，7个子矩阵中的每一个子矩阵的列依然为采集时间点。然后，分别对该7个子矩阵进行SVD操作，以及通过最小二乘法分别对经SVD后的各个正交阵U的第一列和相应的采集周期内的每一日的话务量进行数据拟合，以得到对应于该7个子矩阵的第一回归参数b11、b12、b13、b14、b15、b16、b17，以及第二回归参数b21、b22、b23、b24、b25、b26、b27。当当前日分别为周一、周二、周三、周四、周五、周六、周日时，分别采用第一回归参数b11、b12、b13、b14、b15、b16、b17和第二回归参数b21、b22、b23、b24、b25、b26、b27来计算预测日的预测话务量。以周一为例，将矩阵M拆分后，得到以采集周期内的每个周一为行、以采集时间点为列的对应于周一的子矩阵M1；对子矩阵M1进行SVD操作后，得到相应的正交阵U1；通过最小二乘法对正交阵U1的第一列和采集周期内每个周一的话务量进行数据拟合，以得到对应于子矩阵M1的第一回归参数b11和第二回归参数b12。当当前日t为周一时，可以根据公式10预测得到周二的话务量，即u(t+1)＝b11×u(t)+b21。表3为根据实际数据，按周一到周日构建7个线性回归方程，并由此计算得到针对周一到周日的第一回归参数、第二回归参数，以及线性回归模型。R-square为对模型的评价参数，表示对数据的可解释百分比。

表3利用线性回归模型预测话务量的示例

为进一步提高预测精确度，考虑通过添加预测残差来对预测日的预测话务量进行校正。在本发明中，将预测日的预测话务量加上预测日的预测残差以得到校正的所述预测日的预测话务量，其中预测残差为根据采集日期的预测话务量与真实话务量之差而实现的对所述预测日的预测话务量的校正。

在步骤S7中，使用在步骤S6中得到的按周一到周日区分的线性回归方程，得到采集日期的预测话务量。在步骤S9中计算采集日期的预测话务量与真实话务量之差，该差在本发明中被称为残差。在步骤S10中，将残差按每7天为一组拆分为多个残差组，以做为下一步构建时间序列预测算法的输入，其中多个残差组中的每一个包括7个差值。

在步骤S11中，通过残差组的自相关函数ACF的值和偏自相关函数PACF的值，根据时间序列模型的识别方法，建立相应的预测模型。图3A和图3B分别示出了在根据本发明实施方式的话务量预测的方法中残差组的自相关函数(Auto Correlation Function，即ACF)与偏自相关函数(partial autocorrelation function，即PACF)。如图3A中所示，自相关函数ACF具有拖尾性质，如图3B中所示，偏自相关函数PACF具有截尾性质，且其偏相关表现出一阶特性，因此本发明中适合使用自回归模型，即ARIMA(1,0,0)。ARIMA(1,0,0)为可用的时间序列预测算法之一。在步骤S12中，将步骤S10中得到残差组输入到ARIMA(1,0,0)函数中，以得到未来7天的预测残差组W[i](i＝1,2,3,4,5,6,7)。在其他实施例中，也可以不对采集日期的预测话务量与真实话务量之间的残差进行分组，而直接将该残差作为时间序列预测算法的输入，来预测后面一天，甚至更多天的残差。

在步骤S8中，根据当前日的话务量u(t)，采用步骤S6中的线性回归模型，计算当前日的下一日的预测话务量D1。

在步骤S13中，将预测话务量D1和W[i]中的对应日期的残差相加，得到最终的综合话务量预测结果Y1，即如公式11所示：

Y＝D1+W[i] 公式11

在步骤R1至R4中，分别汇集数据采集结果(即历史话务量)、线性回归预测数据结果(即根据线性回归模型的预测话务量)、时间序列残差预测数据结果(即预测残差组)和最终话务量预测结果(即校正的预测话务量)。在步骤R5中，将上述数据进行输出展示。

图4示出了根据本发明实施方式的话务量预测的方法的话务量历史数据和话务量预测数据的示例。在图4中，采集周期为直至预测日的前一日，即当前日为采集周期的最后一日。对预测日的话务量的预测方法和过程如下：

a.根据话务量历史数据得到预测日的预测话务量，并将其记为D1；

b.根据上述线性回归模型得到所需的采集日期的预测话务量；

c.计算b中所获得的所需的采集日期的预测话务量与对应日期的真实话务量之差，得到所需的采集日期的预测残差；

d.对c中所获得的预测残差按每7天进行分组后，通过ARIMA(1,0,0)函数，预测出未来7天的预测残差组，记为W[i](i＝1,2,3,4,5,6,7)；

e.将a中的D1与d中的未来7天残差组中对应日期的预测残差相加，得到最终预测话务量Y＝D1+W[i]。

以下，假设当天日期是9月1日，采集的历史话务量如表4所示；通过线下回归模型得到的9月2日及其以后7天的预测话务量如表5所示：

表4采集周期内的历史话务量

表5历史话务量与预测话务量

图5A至图5B是根据本发明实施方式的话务量预测的方法的预测结果的示例图形输出，其中，纵轴为话务量总数，横轴为日期，如2014-02-18、2014-02-19等。图5A是线性回归预测的图形结果，其中，黑色表示真实话务量；红色表示预测话务量置信区间95％的上限值；蓝色表示置信区间95％的下限值；灰色阴影表示历史话务量，浅灰色阴影部分表示未来7天的预测话务量，因此本图包含真实话务量数据)。图5B是最终话务量预测结果的图形，其中，黑色曲线表示真实话务量；绿色曲线表示最终的预测话务量；红色竖线表示区分历史话务量和预测话务量的分割线。

图6是根据本发明实施方式的话务量预测的系统的主要组成部分的示意图。相应地，图7是根据本发明实施方式的话务量预测的系统的整体流程图。该系统包括数据采集模块、数据预处理模块、话务量预测模块以及预测结果输出模块。

其中，数据采集模块采集历史话务量，例如，采集呼叫中心系统中的原始话务量数据，并按每15分钟对过去最近一年中的每天的话务量进行采集。将所采集的话务量构成以采集时间点为行、以采集日期为列的矩阵，并将该矩阵应用到“数据预处理模块”中。数据采集模块每日均进行话务量采集，例如可在次日对当天实际话务量进行采集。

数据预处理模块负责对数据采集模块采集到的原始话务量数据进行一系列数据处理，依次包括上述的矩阵转置、数据清洗、和对矩阵进行SVD操作，其中对矩阵进行SVD操作是本发明中特别发现的使用方法。将经过数据预处理之后的数据应用到话务量预测模型。

话务量预测模块负责建立话务量预测模型，实现预测功能，在实际应用中往往包括三部分功能：

“提前一天预测功能”：采用上述线性回归模型，根据当前日的话务量，对预测日的话务量进行预测，其中当前日为预测日的前一天；

“提前一周残差预测功能”：计算采集周期内的每一日的预测话务量与真实话务量的残差，根据ARIMA(1,0,0)函数预测未来七天的残差数据；

“模型融合功能”：将预测日的话务量加上未来七天中对应日期的残差数据得到最终的预测日的话务量。

预测结果输出模块负责将预测结果以数据趋势值和图形的方式在系统中展示预测结果。

根据本发明的技术方案，实现了一种对客服中心的话务量进行预测的方法和系统，有助于使得话务量预测不依赖专家等人的主观因素，避免人为原因的影响，提高了话务量预测的精确度和稳定性，从而使得有效地实现了客服人员排班、配置等运营策略，为企业实现资源最优化配置提供依据，降低企业成本，提升效益。在本发明中，通过矩阵的SVD操作、线性回归模型、ARIMA(1,0,0)函数，避免了话务量预测受专家经验等人为因素的影响，通过本发明的方法实现的话务量预测系统在预测准确度和稳定性上更符合实际业务的使用需求。此外，本发明的适用范围不限于应用系统的环境(单机、多机)、数据存储方式(表或者文件)、以及系统的部署方式(在线或离线)等等，对于类似话务量预测的业务场景，均可以使用本发明的系统来进行预测，具备一定的通用性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种话务量预测的方法，其特征在于包括以下步骤：

采集历史话务量步骤：采集历史话务量，所述历史话务量为在采集周期内按采集时间间隔采集的话务量；

数据预处理步骤：将所述历史话务量形成为以采集日期为行、以采集时间点为列的矩阵，对所述矩阵进行奇异值分解，以得到以所述采集日期为行、以所述采集日期为列的正交阵；

话务量预测步骤：通过使用所述历史话务量而建模得到的线性回归模型，根据当前日的话务量来得到预测日的预测话务量，所述预测日为所述当前日的下一日，所述线性回归模型为将第一回归参数与所述当前日的话务量的乘积加上第二回归参数得到所述预测日的预测话务量；

预测结果输出步骤：输出所述预测日的预测话务量。

2.根据权利要求1所述的方法，其特征在于，所述话务量预测步骤还包括：

分别以所述正交阵的第一列和所述采集周期内的每一日的话务量为已知值x和y，构造线性回归方程Y＝b1×x+b2，通过最小二乘法进行数据拟合，得到最优解b1、b2，其中b1为所述第一回归参数，b2为所述第二回归参数。

3.根据权利要求2所述的方法，其特征在于，所述数据预处理步骤还包括：

当对于某一采集日期某一采集时间点无法得到话务量时，将所述矩阵中对应点的值设为0。

4.根据权利要求3所述的方法，其特征在于，

所述数据预处理步骤还包括：

将所述矩阵按一周的每天拆分成以所述采集日期为行、以所述采集时间点为列的7个子矩阵，所述7个子矩阵中的每一个子矩阵的行分别为所述采集周期内的周一、周二、周三、周四、周五、周六、周日，所述7个子矩阵中的每一个子矩阵的列依然为所述采集时间点，然后分别对所述7个子矩阵进行所述奇异值分解；以及

所述话务量预测步骤还包括：

通过所述最小二乘法分别对经所述奇异值分解后的各个所述正交阵的第一列和所述采集周期内的各个相应日的话务量进行数据拟合，以得到对应于所述7个子矩阵的所述第一回归参数b11、b12、b13、b14、b15、b16、b17，以及所述第二回归参数b21、b22、b23、b24、b25、b26、b27；

当所述当前日分别为周一、周二、周三、周四、周五、周六、周日时，分别采用所述第一回归参数b11、b12、b13、b14、b15、b16、b17和所述第二回归参数b21、b22、b23、b24、b25、b26、b27来计算所述预测日的预测话务量。

5.根据权利要求4所述的方法，其特征在于，还包括：将所述预测日的预测话务量加上所述预测日的预测残差以得到校正的所述预测日的预测话务量，其中所述预测残差为根据所述采集日期的预测话务量与真实话务量之差、采用时间序列预测算法而计算得到的对所述预测日的预测话务量的校正。

6.根据权利要求5所述的方法，其特征在于，还包括：通过以下步骤来计算所述预测残差，

计算所述采集周期内的每一日的预测话务量与其真实话务量之差，将所述差按每7天拆分为多个残差组，所述多个残差组中的每一个包括7个差值；

将所述多个残差组输入所述时间序列预测算法来得到未来7天的预测残差组，从所述预测残差组中选择与所述预测日对应的所述预测残差。

7.根据权利要求6所述的方法，其特征在于，所述时间序列预测算法为自回归积分滑动平均模型。

8.根据权利要求1至7的任何一项所述的方法，其特征在于，所述当前日为所述采集周期范围内的最后一日。

9.根据权利要求1至7的任何一项所述的方法，其特征在于，所述采集周期为365天，所述采集时间间隔为15分钟。

10.一种话务量预测的系统，其特征在于，所述系统包括数据采集模块、数据预处理模块、话务量预测模块以及预测结果输出模块，其中，

所述数据采集模块采集历史话务量，所述历史话务量为在采集周期内按采集时间间隔采集的话务量；

所述数据预处理模块将所述历史话务量形成为以采集日期为行、以采集时间点为列的矩阵，对所述矩阵进行奇异值分解，以得到以所述采集日期为行、以所述采集日期为列的正交阵；

所述话务量预测模块通过使用所述历史话务量而建模得到的线性回归模型，根据当前日的话务量来得到预测日的预测话务量，所述预测日为所述当前日的下一日，所述线性回归模型为将第一回归参数与所述当前日的话务量的乘积加上第二回归参数得到所述预测日的预测话务量；

所述预测结果输出模块输出所述预测日的预测话务量。

11.根据权利要求10所述的系统，其特征在于，所述话务量预测模块还包括：

12.根据权利要求11所述的系统，其特征在于，所述数据预处理模块还包括：当对于某一采集日期某一采集时间点无法得到话务量时，将所述矩阵中对应点的值设为0。

13.根据权利要求12所述的系统，其特征在于，

所述数据预处理模块还包括：

所述话务量预测模块还包括：

14.根据权利要求13所述的系统，其特征在于，所述话务量预测模块将所述预测日的预测话务量加上所述预测日的预测残差以得到校正的所述预测日的预测话务量，其中所述预测残差为根据所述采集日期的预测话务量与真实话务量之差、采用时间序列预测算法而计算得到的对所述预测日的预测话务量的校正。

15.根据权利要求14所述的系统，其特征在于，所述话务量预测模块通过以下步骤来计算所述预测残差，

16.根据权利要求15所述的方法，其特征在于，所述时间序列预测算法为自回归积分滑动平均模型。

17.根据权利要求10至16的任何一项所述的系统，其特征在于，所述当前日为所述采集周期范围内的最后一日。

18.根据权利要求10至16的任何一项所述的系统，其特征在于，所述采集周期为365天，所述采集时间间隔为15分钟。