CN110430328A - 基于LightGBM模型的呼叫中心话务量预测方法和系统 - Google Patents
基于LightGBM模型的呼叫中心话务量预测方法和系统 Download PDFInfo
- Publication number
- CN110430328A CN110430328A CN201910560664.6A CN201910560664A CN110430328A CN 110430328 A CN110430328 A CN 110430328A CN 201910560664 A CN201910560664 A CN 201910560664A CN 110430328 A CN110430328 A CN 110430328A
- Authority
- CN
- China
- Prior art keywords
- feature
- information
- telephone traffic
- current date
- period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/36—Statistical metering, e.g. recording occasions when traffic exceeds capacity of trunks
- H04M3/362—Traffic simulation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/523—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing
- H04M3/5238—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing with waiting time or load prediction arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及大数据算法技术领域,提供了一种基于LightGBM模型的呼叫中心话务量预测方法和系统。该方法包括:先通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集;然后将该第一衍生特征集输入至训练好的LightGBM模型中,即可得到该预测日期下的待预测时间段的话务量预测值。该系统包括用于通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集的特征工程模块,以及用于将该第一衍生特征集输入至训练好的LightGBM模型中得到预测值的预测模块。本发明提供的基于LightGBM模型的呼叫中心话务量预测方法和系统能够预测到更为准确的话务量,以为呼叫中心人员排班提供可靠的数据支撑。
Description
技术领域
本发明涉及大数据算法技术领域,更具体而言,涉及一种基于LightGBM模型的呼叫中心话务量预测方法和系统。
背景技术
随着公司市场的扩展,呼叫中心人数越来越多,提高服务水平同时合理利用呼叫中心人员,降低成本,是呼叫中心的核心任务之一。人员的合理利用就是人员排布与话量分布相一致,在话量高的时候安排足够多的人以保证来的话量能够接起,话量少的时候安排较少的人,不至于出现人员浪费的情况。合理的人员排布能够保证呼叫中心队列管理关键指标达成的同时减少人员成本。目前公司呼叫中心依靠排班组长的经验人工排班,耗时费力,预测能力薄弱,并未能有效做到事前预防,服务水平也无法得到保障。但话务分布是不稳定的,经常受很多因素的影响而变化,如何让这些因素降到最低?首要的就是精准的话务预测。
现有技术多为时间序列预测,按时间顺序记录的一组数据,通过分析数据的趋势、周期和时期等因素预测未来的发展,时间序列要求数据稳定或者差分后稳定,不稳定的数据无法捕捉到时序规律,而影响话务量的外界因素有很多,天气、节假日、推广、市场环境变化等,时间序列做预测只能预测话务量的历史趋势和规律,无法预测到外界因素对话务量的影响。因此,急需一种更加精准的话务量预测方法和系统。
发明内容
本发明要解决的技术问题是提供一种基于LightGBM模型的呼叫中心话务量预测方法和系统,以解决现有的时间序列预测法预测话务量时,无法将影响话务量预测结果的外界因素增加到预测系统和方法中,从而造成预测结果不够准确的问题。
为了解决上述问题,本发明第一方面提供了一种基于LightGBM模型的呼叫中心话务量预测方法,包括如下步骤:
SA1,通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集;所述第一衍生特征集包括时间维度数据,以及特定时间段的历史话务量数据;
SA2,将所述第一衍生特征集输入至训练好的LightGBM模型中,得到所述预测日期下的待预测时间段的话务量预测值。
作为本发明的进一步改进,步骤SA2中,所述训练好的LightGBM模型通过如下步骤得到:
SB1,对历史话务量数据进行预处理得到第一数据集;其中,所述第一数据集包括预处理后的话务量信息、以及与所述话务量信息一一对应的日期信息和时间段信息;
SB2,通过特征工程,构建与所述第一数据集中各条话务量信息对应的日期信息和时间段信息关联的第二衍生特征集;
SB3,将所述第二衍生特征集和所述话务量信息输入至LightGBM模型进行训练;
其中,所述历史话务量数据具有月周期性、周周期性和日周期性。
作为本发明的进一步改进,所述特征工程构建的特征包括:
特征1,当前日期所属年份信息;
特征2,当前日期所属月份信息;
特征3,当前日期对应的日信息;
特征4,当前时间段信息;
特征5,当前日期对应的节日信息,当所述当前日期为工作日时,设置特征值为1;当所述当前日期为周末时,设置特征值为2;当所述当前日期为节日时,设置特征值为3;
特征6,当前日期对应的星期几信息,将星期一至星期日,依次设置特征值为1,2,3,4,5,6,7;
特征7,当前日期前一个月中与当前日期当前时间段对应的日信息以及时间段信息均相同的时间段的话务量信息;
特征8,当前日期前一周中与当前日期当前时间段对应的星期几信息以及时间段信息均相同的时间段的话务量信息;
特征9,当前日期前一天中与当前时间段信息相同的时间段的话务量信息;
特征10,当前日期所属季度信息;
特征11,当前日期对应的一年中的第几周信息;
特征12,当前日期对应的一年中的第几天信息;
特征13,当前日期对应的一个月中的第几周信息;
特征14,当前时间段往前第一个时间段的话务量信息;
特征15,当前时间段往前第二个时间段的话务量信息;
特征16,当前时间段往前第三个时间段的话务量信息。
作为本发明的进一步改进,所述步骤SB3之后,包括:
SB4,基于训练好的LightGBM模型预测得到的预测话务量与实际话务量之间的平均绝对误差,对模型预测结果进行验证。
作为本发明的进一步改进,步骤SB1中,所述预处理包括缺失值处理和异常值处理。
本发明第二方面提供了一种基于LightGBM模型的呼叫中心话务量预测系统,所述预测系统包括:
特征工程模块,用于通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集;所述第一衍生特征集包括时间维度数据,以及特定时间段的历史话务量数据;
预测模块,用于将所述第一衍生特征集输入至训练好的LightGBM模型中,得到所述预测日期下的待预测时间段的话务量预测值。
作为本发明的进一步改进,所述预测系统还包括训练模块,用于得到训练好的LightGBM模型;所述训练模块包括:
预处理单元,用于对历史话务量数据进行预处理得到第一数据集;其中,所述第一数据集包括预处理后的话务量信息、以及与所述话务量信息一一对应的日期信息和时间段信息;
训练单元,用于将与所述第一数据集中各条话务量信息对应的日期信息和时间段信息关联的第二衍生特征集和所述话务量信息输入至LightGBM模型进行训练;其中,所述第二衍生特征集由所述特征工程模块通过特征工程构建得到;
其中,所述历史话务量数据具有月周期性、周周期性和日周期性。
作为本发明的进一步改进,所述特征工程构建的特征包括:
特征1,当前日期所属年份信息;
特征2,当前日期所属月份信息;
特征3,当前日期对应的日信息;
特征4,当前时间段信息;
特征5,当前日期对应的节日信息,当所述当前日期为工作日时,设置特征值为1;当所述当前日期为周末时,设置特征值为2;当所述当前日期为节日时,设置特征值为3;
特征6,当前日期对应的星期几信息,将星期一至星期日,依次设置特征值为1,2,3,4,5,6,7;
特征7,当前日期前一个月中与当前日期当前时间段对应的日信息以及时间段信息均相同的时间段的话务量信息;
特征8,当前日期前一周中与当前日期当前时间段对应的星期几信息以及时间段信息均相同的时间段的话务量信息;
特征9,当前日期前一天中与当前时间段信息相同的时间段的话务量信息;
特征10,当前日期所属季度信息;
特征11,当前日期对应的一年中的第几周信息;
特征12,当前日期对应的一年中的第几天信息;
特征13,当前日期对应的一个月中的第几周信息;
特征14,当前时间段往前第一个时间段的话务量信息;
特征15,当前时间段往前第二个时间段的话务量信息;
特征16,当前时间段往前第三个时间段的话务量信息。
作为本发明的进一步改进,所述预测系统还包括验证模块,用于基于训练好的LightGBM模型预测得到的预测话务量与实际话务量之间的平均绝对误差,对模型预测结果进行验证。
作为本发明的进一步改进,所述预处理单元包括:
缺失值处理子单元,用于对缺失值进行处理;
异常值处理子单元,用于对异常值进行处理。
与现有技术相比,本发明提供的基于LightGBM模型的呼叫中心话务量预测方法和系统先通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集,然后将该第一衍生特征集输入至训练好的LightGBM模型进行预测,能够预测到更为准确的话务量,为呼叫中心人员排班提供可靠的数据支撑。
附图说明
图1是本发明实施例提供的一种基于LightGBM模型的呼叫中心话务量预测方法流程示意图。
图2是本发明实施例提供的一种获得训练好的LightGBM模型的方法流程示意图。
图3是本发明实施例提供的包含缺失值的部分历史话务量数据图。
图4是本发明实施例提供的缺失值处理后的部分历史话务量数据图。
图5是本发明实施例提供的2016~2018年国庆节前四天的历史话务量数据图。
图6是本发明实施例提供的2016~2018年的历史话务量数据折线图。
图7是本发明实施例提供的2016~2018年的9月29日的部分时间段的历史话务量数据图。
图8是本发明实施例提供的2018年5月~8月的月历史话务量数据分布图。
图9是本发明实施例提供的2018年7月~11月的第二周周历史话务量数据分布图。
图10是本发明实施例提供的2018年8月7日~11日各时间段的历史话务量数据分布图。
图11是本发明实施例提供的另一种获得训练好的LightGBM模型的方法流程示意图。
图12是本发明实施例提供的第一种基于LightGBM模型的呼叫中心话务量预测系统的功能模块示意图。
图13是本发明实施例提供的第二种基于LightGBM模型的呼叫中心话务量预测系统的功能模块示意图。
图14是本发明实施例提供的第三种基于LightGBM模型的呼叫中心话务量预测系统的功能模块示意图。
图15是本发明实施例提供的第四种基于LightGBM模型的呼叫中心话务量预测系统的功能模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了使本揭示内容的叙述更加详尽与完备,下文针对本发明的实施方式与具体实施例提出了说明性的描述;但这并非实施或运用本发明具体实施例的唯一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。
为了解决现有的时间序列预测法预测话务量时,无法将影响话务量预测结果的外界因素增加到预测系统和方法中,从而造成预测结果不够准确的问题,本发明提供了一种基于LightGBM模型的呼叫中心话务量预测方法和预测系统。请参阅图1,图1为本发明实施例提供的一种基于LightGBM模型的呼叫中心话务量预测方法流程示意图,在该实施例中,该基于LightGBM模型的呼叫中心话务量预测方法,包括以下步骤:
步骤SA1,通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集;其中,该第一衍生特征集包括时间维度数据,以及特定时间段的历史话务量数据。
具体地,经过特征工程处理后得到的第一衍生特征集包括如下特征:特征1,预测日期所属年份信息;特征2,预测日期所属月份信息;特征3,预测日期对应的日信息;特征4,待预测时间段信息;特征5,预测日期对应的节日信息,当该预测日期为工作日时,设置特征值为1;当该预测日期为周末时,设置特征值为2;当该预测日期为节日时,设置特征值为3;特征6,预测日期对应的星期几信息,将星期一至星期日,依次设置特征值为1,2,3,4,5,6,7;特征7,预测日期前一个月中与预测日期待预测时间段对应的日信息以及时间段信息均相同的时间段的话务量信息;特征8,预测日期前一周中与预测日期待预测时间段对应的星期几信息以及时间段信息均相同的时间段的话务量信息;特征9,预测日期前一天中与待预测时间段信息相同的时间段的话务量信息;特征10,预测日期所属季度信息;特征11,预测日期对应的一年中的第几周信息;特征12,预测日期对应的一年中的第几天信息;特征13,预测日期对应的一个月中的第几周信息;特征14,待预测时间段往前第一个时间段的话务量信息;特征15,待预测时间段往前第二个时间段的话务量信息;特征16,待预测时间段往前第三个时间段的话务量信息。上述特征1~6,10~13构成了上述的时间维度数据,上述特征7~9,14~16构成了上述的特定时间段的历史话务量数据。需要说明的是,上述16个特征中若无对应的特征值时,则设为0;可以理解的是,有用特征越多,预测的结果越准确。
步骤SA2,将该第一衍生特征集输入至训练好的LightGBM模型中,即可得到预测日期下的待预测时间段的话务量预测值。
需要解释的是,LightGBM是boosting集合模型中的新进成员,拥有更快的训练效率、更低的内存使用率和更高的准确率,但是现有技术中少有将LightGBM模型应用在呼叫中心话务量预测上。而本申请先通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集,然后输入至训练好的LightGBM模型进行预测,能够预测到更为准确的话务量,为呼叫中心人员排班提供可靠的数据支撑。
进一步地,上述实施例中训练好的LightGBM模型是基于历史话务量数据训练得到,如图2中所示,包括如下步骤:
步骤SB1,对历史话务量数据进行预处理得到第一数据集;其中,该第一数据集包括预处理后的话务量信息、以及与该话务量信息一一对应的日期信息和时间段信息。
具体地,历史话务量数据可通过Hive访问数据库得到,更具体地,包括一一对应的日期信息、产生通话记录的时间段信息以及该时间段内的话务量信息,如下表1中所示:
表1历史话务量数据所包含的信息
需要说明的是,目前呼叫中心排班是按小时维度进行,因此在该实施例中,一个时间段对应为一小时,即以小时为单位统计通话数量,得到话务量信息;当然,以半小时、一小时半、或两小时等为单位统计通话数量得到的话务量信息也适用于本发明。
进一步地,对获取的历史话务量数据进行预处理得到第一数据集。
预处理操作主要包括缺失值处理和异常值处理,可以减少由于偶然因素引起的话务量异常或者存在的缺失值对话务量预测准确性的干扰,以使最终获得的预测模型更优,且通过该预测模型预测到的话务量更准确,以为呼叫中心人员排班提供可靠的数据支撑。
具体地,缺失值处理可以采用相邻时间段的均值进行填充,在该实施例中提取了近三年(2016~2018年)的历史话务量数据,发现2017年之前的数据缺失严重,对缺失的数据进行删除;2017年之后的数据缺失较少,故对其进行补全,补全原则为:采用缺失时间段的上一个时间段和下一个时间段的话务量信息的均值进行填充,补全公式为:
count=(上一个时间段的count+下一个时间段的count)/2
例如图3中显示,2017年1月25日,05:00-06:00时间段的话务量数据有缺失,而与其相邻的2017年1月25日,04:00-05:00时间段的话务量为2,2017年1月25日,06:00-07:00时间段的话务量为5;参照上面的补全公式,计算得到2017年1月25日,05:00-06:00时间段的话务量为3.5,则在历史话务量数据的(data,time,count)中依次补全如下信息(2017/1/25,05-06,3.5),补全后的结果如图4中所示。
具体地,异常值可以采用剔除法、均值填充法、中位数填充法或者K近邻填充法进行填充;更具体地,在一些优选实施例中,异常值通过箱线图分析方法检测得到,然后采用均值填充法进行填充,具体操作过程如下所示:
基于本实施例中提取的近三年(2016~2018年)的历史话务量数据,依据箱线图计算法(此处处理极度异常值k=3),算出的话务量上下边界值分别如下:
UpperLimit=Q3+3IQR=75%分位数+(75%分位数-25%分位数)*3
=38852.5
LowerLimit=Q3-3IQR=25%分位数-(75%分位数-25%分位数)*3
=-12100.5
例如图5为2016~2018年国庆节前四天的话务量数据,其中,以2017年9月29日为例,异常峰值:54766(如图6中所示),即该值在基于箱线图计算法算出的话务量的上边界值之外。图7展示了2017年9月29日各时间段的话务量数据,针对实际业务情况,将异常的数据填充为前后相邻年度相同日期相同时间段的话务量的均值,即
经过预处理后得到的第一数据集中包括:预处理后的话务量信息、以及与该话务量信息一一对应的日期信息和时间段信息。
步骤SB2,通过特征工程,构建与上述第一数据集中各条话务量信息对应的日期信息和时间段信息关联的第二衍生特征集。
需要解释的是,特征工程是回归预测的核心,可以最大限度地从历史话务量数据中提取特征以供LightGBM模型使用,能够解决历史话务量数据中由于变量数量少导致的易欠拟合问题。具体地,通过对历史话务量数据进行可视化分析发现,历史话务量数据具有月周期性(如图8所示)、周周期性(如图9所示)和日周期性(如图10所示);月周期性即:每月的话务量数据波动趋势大致吻合,同一日期同一时间段的话务量相差不大;周周期性即:相邻两周的话务量数据波动趋势大致吻合,相同星期几的各个相同时间段的话务量均相差不大;日周期性即:相邻两天的话务量数据波动趋势大致吻合,各个相同时间段的话务量均相差不大。也就是说,历史话务量每月,每周,每天对其它月,周和日对应的时间段有很大的参考价值;同时从图10中还可发现,上一个时间段和下一个时间段的话务量数据的变化趋势(上升趋势或下降趋势)一致,具有明显的线性关系,因此也具有一定的参考价值;基于此,在该实施例中通过特征工程,构建了与表1中的日期信息和时间段信息关联的第二衍生特征集,该第二衍生特征集中包括如下表2中所列的特征:
表2第二衍生特征集中包含的特征
也就是说,步骤SB2通过分析历史话务量数据在时间点上的重要周期规律,从时间线上拆分旧特征并提取新特征,将第一数据集中所包含的2个变量拓展成第二衍生特征集中的16个变量;由于增加了更多的有用变量,同时还考虑了节假日等外部影响因素,加入了贴合业务场景的异常处理机制,会使后续得到的预测模型更优。
步骤SB3,将第二衍生特征集和对应的话务量信息输入至LightGBM模型进行训练。在该步骤SB3中,为了提高模型的准确度和防止模型过拟合,需要先对LightGBM模型中的参数进行调节,根据本发明的一些实施例,使用LightGBM内置的交叉验证cv模块进行参数调节,具体包括:1、调节参数num_leaves和参数max_depth以提高准确率;2、调节参数feature_fraction,参数bagging_fraction和参数bagging_freq以降低过拟合;3、调节参数lambda_l1,参数lambda_l2和参数min_gain_to_split以降低过拟合;4、调节learning_rate以提高准确率。调节完参数后,将第二衍生特征集和对应的话务量信息输入至已调节好参数的LightGBM模型中进行训练,训练完成后即得到训练好的LightGBM模型,然后保存该模型。
进一步地,在本发明的另一个实施例中,获得训练好的LightGBM模型的步骤之后,还包括对训练好的LightGBM模型进行验证,如图11所示:
步骤SB4,基于训练好的LightGBM模型预测得到的预测话务量与实际话务量之间的平均绝对误差,对模型预测结果进行验证。
进一步地,在训练该调节好参数的LightGBM模型之前,将第二衍生特征集和对应的话务量信息拆分成训练集和验证集;在将训练集数据输入至已调节好参数的LightGBM模型中进行训练,得到训练好的模型之后,再将验证集中的衍生特征集输入至训练好的LightGBM模型中,得到预测话务量数据;基于该预测话务量数据与验证集中的实际话务量数据之间的平均绝对误差,对模型预测结果进行验证。
需要解释的是,平均绝对误差(Mean Absolute Error,MAE),指的是预测值与实际值之差的绝对值的平均;平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小;其对应的公式为:
其中yi表示实际值,fi表示预测值,N为预测样本个数。
可以理解的是,平均绝对误差越小,模型越稳定,通过该模型预测的结果越准确。
利用训练好的LightGBM模型进行预测,通过对预测话务量数据集和实际话务量数据集两者间得到的平均绝对误差进行对比,可以客观、有效地评估模型的预测准确性和稳定性,并为是否调整模型提供参考。
图12为本发明实施例提供的一种基于LightGBM模型的呼叫中心话务量预测系统的功能模块示意图,在该实施例中,该预测系统包括特征工程模块1和预测模块2;其中,特征工程模块1,用于通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集;该第一衍生特征集包括时间维度数据,以及特定时间段的历史话务量数据;预测模块2,用于将该第一衍生特征集输入至训练好的LightGBM模型中,得到该预测日期下的待预测时间段的话务量预测值。
在上述实施例的基础上,其他实施例中,如图13所示,该预测系统还包括训练模块3,用于得到训练好的LightGBM模型;该训练模块3包括预处理单元31和训练单元32;其中预处理单元31,用于对历史话务量数据进行预处理得到第一数据集;其中,该第一数据集包括预处理后的话务量信息、以及与该话务量信息一一对应的日期信息和时间段信息;训练单元32,用于将与该第一数据集中各条话务量信息对应的日期信息和时间段信息关联的第二衍生特征集和话务量信息输入至LightGBM模型进行训练;其中,该第二衍生特征集由特征工程模块1通过特征工程构建得到;其中,历史话务量数据具有月周期性、周周期性和日周期性。
在上述实施例的基础上,其他实施例中,如图14所示,预处理单元31包括缺失值处理子单元311和异常值处理子单元312;其中,缺失值处理子单元311,用于对缺失值进行处理;异常值处理子单元312,用于对异常值进行处理。
在上述实施例的基础上,其他实施例中,如图15所示,预测系统还包括验证模块4,用于基于训练好的LightGBM模型预测得到的预测话务量与实际话务量之间的平均绝对误差,对模型预测结果进行验证。
在上述实施例的基础上,其他实施例中,特征工程构建的特征包括:
特征1,当前日期所属年份信息;
特征2,当前日期所属月份信息;
特征3,当前日期对应的日信息;
特征4,当前时间段信息;
特征5,当前日期对应的节日信息,当该当前日期为工作日时,设置特征值为1;当该当前日期为周末时,设置特征值为2;当该当前日期为节日时,设置特征值为3;
特征6,当前日期对应的星期几信息,将星期一至星期日,依次设置特征值为1,2,3,4,5,6,7;
特征7,当前日期前一个月中与当前日期当前时间段对应的日信息以及时间段信息均相同的时间段的话务量信息;
特征8,当前日期前一周中与当前日期当前时间段对应的星期几信息以及时间段信息均相同的时间段的话务量信息;
特征9,当前日期前一天中与当前时间段信息相同的时间段的话务量信息;
特征10,当前日期所属季度信息;
特征11,当前日期对应的一年中的第几周信息;
特征12,当前日期对应的一年中的第几天信息;
特征13,当前日期对应的一个月中的第几周信息;
特征14,当前时间段往前第一个时间段的话务量信息;
特征15,当前时间段往前第二个时间段的话务量信息;
特征16,当前时间段往前第三个时间段的话务量信息。
关于上述五个实施例提供的预测系统中各模块实现技术方案的其他细节,可参见上述实施例中的基于LightGBM模型的呼叫中心话务量预测方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种基于LightGBM模型的呼叫中心话务量预测方法,其特征在于,包括如下步骤:
SA1,通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集;所述第一衍生特征集包括时间维度数据,以及特定时间段的历史话务量数据;
SA2,将所述第一衍生特征集输入至训练好的LightGBM模型中,得到所述预测日期下的待预测时间段的话务量预测值。
2.如权利要求1所述的基于LightGBM模型的呼叫中心话务量预测方法,其特征在于,步骤SA2中,所述训练好的LightGBM模型通过如下步骤得到:
SB1,对历史话务量数据进行预处理得到第一数据集;其中,所述第一数据集包括预处理后的话务量信息、以及与所述话务量信息一一对应的日期信息和时间段信息;
SB2,通过特征工程,构建与所述第一数据集中各条话务量信息对应的日期信息和时间段信息关联的第二衍生特征集;
SB3,将所述第二衍生特征集和所述话务量信息输入至LightGBM模型进行训练;
其中,所述历史话务量数据具有月周期性、周周期性和日周期性。
3.如权利要求1或2所述的基于LightGBM模型的呼叫中心话务量预测方法,其特征在于,所述特征工程构建的特征包括:
特征1,当前日期所属年份信息;
特征2,当前日期所属月份信息;
特征3,当前日期对应的日信息;
特征4,当前时间段信息;
特征5,当前日期对应的节日信息,当所述当前日期为工作日时,设置特征值为1;当所述当前日期为周末时,设置特征值为2;当所述当前日期为节日时,设置特征值为3;
特征6,当前日期对应的星期几信息,将星期一至星期日,依次设置特征值为1,2,3,4,5,6,7;
特征7,当前日期前一个月中与当前日期当前时间段对应的日信息以及时间段信息均相同的时间段的话务量信息;
特征8,当前日期前一周中与当前日期当前时间段对应的星期几信息以及时间段信息均相同的时间段的话务量信息;
特征9,当前日期前一天中与当前时间段信息相同的时间段的话务量信息;
特征10,当前日期所属季度信息;
特征11,当前日期对应的一年中的第几周信息;
特征12,当前日期对应的一年中的第几天信息;
特征13,当前日期对应的一个月中的第几周信息;
特征14,当前时间段往前第一个时间段的话务量信息;
特征15,当前时间段往前第二个时间段的话务量信息;
特征16,当前时间段往前第三个时间段的话务量信息。
4.如权利要求2所述的基于LightGBM模型的呼叫中心话务量预测方法,其特征在于,所述步骤SB3之后,包括:
SB4,基于训练好的LightGBM模型预测得到的预测话务量与实际话务量之间的平均绝对误差,对模型预测结果进行验证。
5.如权利要求2所述的基于LightGBM模型的呼叫中心话务量预测方法,其特征在于,步骤SB1中,所述预处理包括缺失值处理和异常值处理。
6.一种基于LightGBM模型的呼叫中心话务量预测系统,其特征在于,所述预测系统包括:
特征工程模块,用于通过特征工程,构建与预测日期下的待预测时间段关联的第一衍生特征集;所述第一衍生特征集包括时间维度数据,以及特定时间段的历史话务量数据;
预测模块,用于将所述第一衍生特征集输入至训练好的LightGBM模型中,得到所述预测日期下的待预测时间段的话务量预测值。
7.如权利要求6所述的基于LightGBM模型的呼叫中心话务量预测系统,其特征在于,所述预测系统还包括训练模块,用于得到训练好的LightGBM模型;所述训练模块包括:
预处理单元,用于对历史话务量数据进行预处理得到第一数据集;其中,所述第一数据集包括预处理后的话务量信息、以及与所述话务量信息一一对应的日期信息和时间段信息;
训练单元,用于将与所述第一数据集中各条话务量信息对应的日期信息和时间段信息关联的第二衍生特征集和所述话务量信息输入至LightGBM模型进行训练;其中,所述第二衍生特征集由所述特征工程模块通过特征工程构建得到;
其中,所述历史话务量数据具有月周期性、周周期性和日周期性。
8.如权利要求6或7所述的基于LightGBM模型的呼叫中心话务量预测系统,其特征在于,所述特征工程构建的特征包括:
特征1,当前日期所属年份信息;
特征2,当前日期所属月份信息;
特征3,当前日期对应的日信息;
特征4,当前时间段信息;
特征5,当前日期对应的节日信息,当所述当前日期为工作日时,设置特征值为1;当所述当前日期为周末时,设置特征值为2;当所述当前日期为节日时,设置特征值为3;
特征6,当前日期对应的星期几信息,将星期一至星期日,依次设置特征值为1,2,3,4,5,6,7;
特征7,当前日期前一个月中与当前日期当前时间段对应的日信息以及时间段信息均相同的时间段的话务量信息;
特征8,当前日期前一周中与当前日期当前时间段对应的星期几信息以及时间段信息均相同的时间段的话务量信息;
特征9,当前日期前一天中与当前时间段信息相同的时间段的话务量信息;
特征10,当前日期所属季度信息;
特征11,当前日期对应的一年中的第几周信息;
特征12,当前日期对应的一年中的第几天信息;
特征13,当前日期对应的一个月中的第几周信息;
特征14,当前时间段往前第一个时间段的话务量信息;
特征15,当前时间段往前第二个时间段的话务量信息;
特征16,当前时间段往前第三个时间段的话务量信息。
9.如权利要求7所述的基于LightGBM模型的呼叫中心话务量预测系统,其特征在于,所述预测系统还包括验证模块,用于基于训练好的LightGBM模型预测得到的预测话务量与实际话务量之间的平均绝对误差,对模型预测结果进行验证。
10.如权利要求7所述的基于LightGBM模型的呼叫中心话务量预测系统,其特征在于,所述预处理单元包括:
缺失值处理子单元,用于对缺失值进行处理;
异常值处理子单元,用于对异常值进行处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910560664.6A CN110430328B (zh) | 2019-06-26 | 2019-06-26 | 基于LightGBM模型的呼叫中心话务量预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910560664.6A CN110430328B (zh) | 2019-06-26 | 2019-06-26 | 基于LightGBM模型的呼叫中心话务量预测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110430328A true CN110430328A (zh) | 2019-11-08 |
CN110430328B CN110430328B (zh) | 2021-09-03 |
Family
ID=68409554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910560664.6A Active CN110430328B (zh) | 2019-06-26 | 2019-06-26 | 基于LightGBM模型的呼叫中心话务量预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110430328B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269364A (zh) * | 2021-06-01 | 2021-08-17 | 上海汽车集团股份有限公司 | 一种共享车辆的调度方法及装置 |
CN118014282A (zh) * | 2024-02-06 | 2024-05-10 | 广东联合电子服务股份有限公司 | 一种基于高速客服话务量预测的话务员排班方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6188673B1 (en) * | 1997-09-02 | 2001-02-13 | Avaya Technology Corp. | Using web page hit statistics to anticipate call center traffic |
CN101132447A (zh) * | 2007-08-13 | 2008-02-27 | 中国移动通信集团安徽有限公司 | 一种大型呼叫中心的热线来话预测方法 |
CN101453747A (zh) * | 2008-10-31 | 2009-06-10 | 中国移动通信集团北京有限公司 | 一种话务量预测方法及装置 |
CN101541030A (zh) * | 2009-05-06 | 2009-09-23 | 华为技术有限公司 | 基于支持向量机的数据预测方法和设备 |
CN101964998A (zh) * | 2009-07-24 | 2011-02-02 | 北京亿阳信通软件研究院有限公司 | 一种电信网络普通节日话务量的预测方法及其装置 |
CN103095937A (zh) * | 2012-12-14 | 2013-05-08 | 广东电网公司佛山供电局 | 基于话务预测的呼叫中心座席数量的预测方法 |
CN104378515A (zh) * | 2014-12-04 | 2015-02-25 | 上海澄美信息服务有限公司 | 呼叫中心话务量预测方法 |
CN104778532A (zh) * | 2015-03-12 | 2015-07-15 | 科大国创软件股份有限公司 | 智能呼叫中心管理系统及智能排班控制方法 |
CN104881704A (zh) * | 2014-02-27 | 2015-09-02 | 中国移动通信集团广东有限公司 | 一种话务指标的预测方法、装置及电子设备 |
CN107844915A (zh) * | 2017-11-29 | 2018-03-27 | 信雅达系统工程股份有限公司 | 一种基于话务预测的呼叫中心的自动排班方法 |
CN108268967A (zh) * | 2017-01-04 | 2018-07-10 | 北京京东尚科信息技术有限公司 | 一种话务量预测的方法和系统 |
US20180227930A1 (en) * | 2016-03-31 | 2018-08-09 | Verizon Patent And Licensing Inc. | Modeling network performance and service quality in wireless networks |
CN109922212A (zh) * | 2018-12-21 | 2019-06-21 | 阿里巴巴集团控股有限公司 | 一种时段话务量占比的预测方法及装置 |
-
2019
- 2019-06-26 CN CN201910560664.6A patent/CN110430328B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6188673B1 (en) * | 1997-09-02 | 2001-02-13 | Avaya Technology Corp. | Using web page hit statistics to anticipate call center traffic |
CN101132447A (zh) * | 2007-08-13 | 2008-02-27 | 中国移动通信集团安徽有限公司 | 一种大型呼叫中心的热线来话预测方法 |
CN101453747A (zh) * | 2008-10-31 | 2009-06-10 | 中国移动通信集团北京有限公司 | 一种话务量预测方法及装置 |
CN101541030A (zh) * | 2009-05-06 | 2009-09-23 | 华为技术有限公司 | 基于支持向量机的数据预测方法和设备 |
CN101964998A (zh) * | 2009-07-24 | 2011-02-02 | 北京亿阳信通软件研究院有限公司 | 一种电信网络普通节日话务量的预测方法及其装置 |
CN103095937A (zh) * | 2012-12-14 | 2013-05-08 | 广东电网公司佛山供电局 | 基于话务预测的呼叫中心座席数量的预测方法 |
CN104881704A (zh) * | 2014-02-27 | 2015-09-02 | 中国移动通信集团广东有限公司 | 一种话务指标的预测方法、装置及电子设备 |
CN104378515A (zh) * | 2014-12-04 | 2015-02-25 | 上海澄美信息服务有限公司 | 呼叫中心话务量预测方法 |
CN104778532A (zh) * | 2015-03-12 | 2015-07-15 | 科大国创软件股份有限公司 | 智能呼叫中心管理系统及智能排班控制方法 |
US20180227930A1 (en) * | 2016-03-31 | 2018-08-09 | Verizon Patent And Licensing Inc. | Modeling network performance and service quality in wireless networks |
CN108268967A (zh) * | 2017-01-04 | 2018-07-10 | 北京京东尚科信息技术有限公司 | 一种话务量预测的方法和系统 |
CN107844915A (zh) * | 2017-11-29 | 2018-03-27 | 信雅达系统工程股份有限公司 | 一种基于话务预测的呼叫中心的自动排班方法 |
CN109922212A (zh) * | 2018-12-21 | 2019-06-21 | 阿里巴巴集团控股有限公司 | 一种时段话务量占比的预测方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269364A (zh) * | 2021-06-01 | 2021-08-17 | 上海汽车集团股份有限公司 | 一种共享车辆的调度方法及装置 |
CN118014282A (zh) * | 2024-02-06 | 2024-05-10 | 广东联合电子服务股份有限公司 | 一种基于高速客服话务量预测的话务员排班方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110430328B (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11485249B2 (en) | And control of electric vehicle charging infrastructure | |
JP6742894B2 (ja) | データ予測システムおよびデータ予測方法 | |
EP3499451A1 (en) | Prediction system and prediction method | |
CN110363323B (zh) | 一种周期性客户拜访路线的智能规划方法、系统及设备 | |
JP6445909B2 (ja) | 電力需要予測システム | |
CN106126391A (zh) | 系统监控方法和装置 | |
CN105847598A (zh) | 呼叫中心多因子话务预测方法及其装置 | |
EP3309724A1 (en) | Methods and systems related to allocating field engineering resources for power plant maintenance | |
CN105608333B (zh) | 一种考虑多区域差异的气象敏感电量挖掘方法 | |
US20090290700A1 (en) | Call amount estimating method | |
CN110580544B (zh) | 一种基于周期性依赖的话务量预测方法 | |
CN110430328A (zh) | 基于LightGBM模型的呼叫中心话务量预测方法和系统 | |
CN110110950A (zh) | 生成配送路区的方法、装置及计算机可读存储介质 | |
CN111221872A (zh) | 一种电力系统用负荷管理中心大数据平台及负荷管理方法 | |
CN116683452A (zh) | 一种日清缺失电量的修复方法及系统 | |
KR20130044765A (ko) | 예측 속도 향상을 위한 신경망과 보정계수를 이용한 주간 부하 예측 장치 및 방법 | |
CN104252647B (zh) | 基于反距离权重插值法的用电负荷预测方法 | |
CN104239413B (zh) | 一种电网数据在线分析处理方法 | |
CN116050636A (zh) | 光伏电站的出力预测方法、装置、设备及介质 | |
JP3268520B2 (ja) | ガス需要量の予測方法 | |
CN107563544A (zh) | 一种基于日特征向量优化的灰色模型电量预测方法 | |
CN106682840A (zh) | 基于日累计发行电量的短期售电量预测方法及系统 | |
CN111126753B (zh) | 一种基于大数据技术的供电所配置评估及分析系统 | |
WO2017071609A1 (en) | Cloud-based methods for identifying energy profile and estimating energy consumption and cloud-based energy profile usage identification system | |
CN106295882A (zh) | 用于预测设备需求的数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 518000 floor 4, building a, Lufthansa aviation Park, hourui community, Hangcheng street, Bao'an District, Shenzhen City, Guangdong Province Patentee after: Shenzhen Leap New Technology Co.,Ltd. Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.) Patentee before: Shenzhen Leap New Technology Co.,Ltd. |