CN114492905A

CN114492905A - 基于多模型融合的客诉率预测方法、装置和计算机设备

Info

Publication number: CN114492905A
Application number: CN202011268366.9A
Authority: CN
Inventors: 陈晓晶; 董珊; 吴鸿艺; 陈才; 陈志文; 孙宏宇
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-05-13
Anticipated expiration: 2040-11-13

Abstract

本申请涉及一种基于多模型融合的客诉率预测方法、装置、计算机设备和存储介质。所述方法包括：获取待预测业务特征；将待预测业务特征分别输入至少两个训练好的不同客诉率预测模型中，得到各客诉率预测模型输出的预测时段的日度客诉率预测值；根据各客诉率预测模型融合时的权重占比值确定对应的预测值权重；根据各预测权重和对应的日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值。采用本方法能够提高客诉率预测准确性。

Description

基于多模型融合的客诉率预测方法、装置和计算机设备

技术领域

本申请涉及大数据技术领域，特别是涉及一种基于多模型融合的客诉率预测方法、装置和计算机设备。

背景技术

随着人工智能技术的发展，人工智能技术被应用在各个领域，如物流领域。随着物流领域中各中物流业务的发展，存在客户投诉的场景。解决客户投诉和降低客户投诉率是物流领域场景中亟待解决的问题，即通过客诉率预测，根据预测结果结合资源配置、相关指标等干预措施可以降低客诉率。

然而，目前人工智能技术领域的客诉率预测模型大多是先经过离线训练的，将训练好的模型打包应用于实际生产中，无法保证预测结果的及时性；当前应用于线上的客诉率预测模型都比较简单，导致客诉率预测的准确性低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高客诉率预测准确性的基于多模型融合的客诉率预测方法、装置、计算机设备和存储介质。

一种基于多模型融合的客诉率预测方法，方法包括：

获取待预测业务特征；

将待预测业务特征分别输入至少两个训练好的不同客诉率预测模型中，得到各客诉率预测模型输出的预测时段的日度客诉率预测值；

根据各客诉率预测模型融合时的权重占比值和误差权重值确定对应的预测值权重；

根据各预测权重和对应的日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值。

在其中一个实施例中，客诉率预测模型的训练方法，包括：

确定用于训练客诉率预测模型的数据集；

基于数据集，确定各客诉率预测模型的最佳训练窗口长度、最重要业务特征个数和超参数组合；

构建模型训练的训练数据集；

基于最佳训练窗口长度、最重要业务特征个数和超参数组合，通过训练数据集对各客诉率预测模型进行训练，得到训练好的客诉率预测模型。

在其中一个实施例中，确定用于训练客诉率预测模型的数据集，包括：

获取与客诉率预测值相关的业务特征集和对应的客诉率的整合表；

根据各业务特征的历史值和客诉率的历史值，确定业务特征之间第一相关系数值以及各业务特征与客诉率之间的第二相关系数值；

根据各第一相关系数值和各第二相关系数值，从整合表中确定与客诉率相关的目标业务特征，得到更新整合表；以及

根据复制次数对更新整合表进行复制并合并，得到数据集。

在其中一个实施例中，方法还包括：

获取更新整合表中各目标业务特征的重要度；

按照重要度从高到低的顺序对各目标业务特征进行排序，得到对应的重要排序表。

在其中一个实施例中，确定各客诉率预测模型的最佳训练窗口长度，包括：

获取预设训练窗口长度集；

通过时间序列模型预测各目标业务特征在第一时期的预测值，得到第一回测集；第一时期

根据第一回测集，确定各客诉率预测模型的在第一时期的第一回测误差值；

根据第一回测误差值从预测训练窗口集中确定最佳训练窗口长度。

在其中一个实施例中，确定各客诉率预测模型的最重要业务特征个数，包括：

获取预设重要业务特征个数集；

根据预设重要业务特征个数集中各预设重要业务特征个数和重要度排序表，按照重要度从高到低的顺序从第一回测集中确定各预设重要业务特征个数个重要业务特征，得到第二回测集；

根据各第二回测集，确定各客诉率预测模型的在第一时期的第二回测误差值；

根据各第二回测误差值从预测训练窗口集中确定最重要业务特征个数。

在其中一个实施例中，确定各客诉率预测模型的超参数组合，包括：

确定各客诉率预测模型的候选超参数；

根据最佳训练窗口长度、最重要业务特征个数，和第一回测集中的最重要业务特征个数个重要业务特征确定的第三回测集，确定各客诉率预测模型的在第一时期的最小回测误差值；

基于最小回测误差值，确定各客诉率预测模型的最优参数组合。

在其中一个实施例中，构建模型训练的训练数据集，包括：

根据最佳训练窗口长度、最重要业务特征个数从数据集中确定目标业务特征以及日期特征的数据；

将目标业务特征以及日期特征的数据作为训练数据集。

一种基于多模型融合的客诉率预测装置，装置包括：

获取模块，用于获取待预测业务特征；

预测模块，用于将待预测业务特征分别输入至少两个训练好的客诉率预测模型中，得到各客诉率预测模型输出的预测时段的日度客诉率预测值；

确定模块，用于根据各客诉率预测模型融合时的权重占比值和误差权重值确定对应的预测值权重；

融合模块，用于根据各预测权重和对应的日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取待预测业务特征；

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待预测业务特征；

上述基于多模型融合的客诉率预测方法、装置、计算机设备和存储介质，通过将待预测的业务特征分别输入不同预先训练好的客诉率预测模型，得到不同客诉率预测模型预测的日度客诉率预测值，通过确定各模型融合权重，根据各模型的融合权值和误差权对各模型的日度客诉率预测值记性加权计算融合，进一步改善客诉率预测模型中预测集特征值缺失的弊端，提高了模型的预测准确性。

附图说明

图1为一个实施例中基于多模型融合的客诉率预测方法的应用环境图；

图2为一个实施例中基于多模型融合的客诉率预测方法的流程示意图；

图3为一个实施例中确定训练客诉率预测模型的数据集方法的流程示意图；

图4为一个实施例中确定客诉率预测模型的最佳训练窗口长度方法的流程示意图；

图5为一个实施例中确定客诉率预测模型的最重要业务特征个数方法的流程示意图；

图6为一个实施例中确定客诉率预测模型的超参数组合方法的流程示意图；

图7为一个实施例中多模型融合的客诉率预测模型的训练方法的流程示意图；

图8为另一个实施例中基于多模型融合的客诉率预测方法的流程示意图；

图9为一个实施例中基于多模型融合的客诉率预测方法的流程示意图；

图10为一个实施例中基于多模型融合的客诉率预测装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于多模型融合的客诉率预测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102从服务器104中获取待预测业务特征；将待预测业务特征分别输入至少两个训练好的不同客诉率预测模型中，得到各客诉率预测模型输出的预测时段的日度客诉率预测值；根据各客诉率预测模型融合时的权重占比值和误差权重值确定对应的预测值权重；根据各预测权重和对应的日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于多模型融合的客诉率预测方法，以该方法应用于图1中的终端为例进行说明，本实施例中以融合Prophet模型、XGBoost模型和ANN模型为例进行说明，该方法包括以下步骤：

步骤202，获取待预测业务特征。

其中，业务特征是与客诉率相关的件量特征、资源特征与指标特征等；件量特征包括收派件量、未装未发票数、车辆总数、时效达成率等。各业务特征与客诉率的数据以表格的形式进行存储；存储方式可以通过构建动态分区表，将该表固化成动态分区表，日度进行增量更新并覆盖刷新先前日期的客诉率值；表格的每一行代表某地区某天的所有业务特征的值和对应的客诉率值。如表1所示：

表1

待预测业务特征是根据各业务特征与客诉率相关性确定的，即根据确定的最重要业务特征个数和业务特征的重要度从重要度排序表中确定待预测业务特征。

具体地，终端从服务器中获取预先确定的预测集，按照业务特征的重要度从高到低的顺序从预测集中获取最重要业务特征个数的待预测业务特征。

步骤204，将待预测业务特征分别输入至少两个训练好的不同客诉率预测模型中，得到各客诉率预测模型输出的预测时段的日度客诉率预测值。

其中，各客诉率预测模型是在确定最佳训练窗口长度、最重要业务特征个数和超参数组合的基础上，从数据库的不同分区获取相同的训练数据集对各客诉率预测模型进行线上训练，各客诉率预测模型的训练过程相同。通过对各客诉率预测模型进行线上训练可以根据实际情况(例如，客诉率值的准确性，训练数据的实时性)进行调整训练，提高各模型预测的准确性。客诉率预测模型可以但不仅限于是Prophet模型、XGBoost模型和ANN模型。不同客诉预测模型的特征工程中的日期特征是不同的，Prophet模型中日期特征为设置节假日列表参数，XGBoost、ANN模型中的日期特征为日期特性的特征，例如，年份、月份、日期数、星期数、是否周末、是否节假日等。在XGBoost、ANN模型中，针对日期数、星期数此类类别变量，进行证据权重(Weight of Evidence，WOE)转换，得到各日期特征的重要度。

预测时间段是根据预测需求确定的，例如，预设时间段是T至T+7期间，T为预测开始日期。

具体地，将待预测业务特征分别输入至训练好的Prophet模型、XGBoost模型和ANN模型中，得到T至T+7期间的日度客诉率值。

步骤206，根据各客诉率预测模型融合时的权重占比值确定对应的预测值权重。

其中，权重占比值是指根据各客诉率预测的回测误差值确定模型融合时各模型的数值，即误差权重。例如，各客诉率预测模型分别为Prophet模型、XGBoost模型和ANN模型，确定Prophet模型的误差权重为1/3，XGBoost模型误差权重为1/3和ANN模型的误差权重为1/3。

具体地，获取各客诉率预测模型的最小回测误差值，根据各客诉率预测模型的最小回测误差值和融合时的权重占比值，进行加权计算得到对应的各客诉率预测模型的预测值权重。例如，Prophet模型、XGBoost模型和ANN模型的权值占比值均为1/3，对应的最小回测误差值依次是Epro，Exgb，Eann。通过加权计算可以得到Prophet模型的预测值权重，XGBoost模型的预测值权重以及ANN模型的预测值权重，其中：

Prophet模型的预测值权重的表达为：

XGBoost模型的预测值权重的表达为

ANN模型的预测值权重的表达为

步骤208，根据各预测权重和对应的日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值。

具体地，获取各客诉率预测模型的日度客诉率预测值，通过各客诉率预测模型的预测值权重和日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值。其中，加权计算融合的过程可以表示为：

融合后日度客诉率预测值＝Prophet日度客诉率预测值*Prophet预测值权重+XGBoost日度客诉率预测值*XGBoost预测值权重+ANN日度客诉率预测值*ANN预测值权重

上述基于多模型融合的客诉率预测方法中，通过将待预测的业务特征分别输入不同预先训练好的客诉率预测模型，得到不同客诉率预测模型预测的日度客诉率预测值，通过确定各模型融合权重，根据各模型的融合权值和误差权对各模型的日度客诉率预测值记性加权计算融合，进一步改善客诉率预测模型中预测集特征值缺失的弊端，提高了模型的预测准确性。

在一个实施例中，如图3所示，提供了一种用于确定训练客诉率预测模型的数据集的方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤302，获取与客诉率预测值相关的业务特征集和对应的客诉率的整合表。

其中，业务特征集中包括收派件量、未装未发票数、车辆总数、时效达成率等。整合表是指将获取的客诉率预测值相关的业务特征集的特征值和对应客诉率值映射到数据表中，通过构建动态分区表，将将该表固化成动态分区表得到包括业务特征和客诉率的数据表。

步骤304，根据各业务特征的历史值和客诉率的历史值，确定业务特征之间第一相关系数值以及各业务特征与客诉率之间的第二相关系数值。

其中，第一相关系数值和第二相关系数值是根据皮尔逊公式计算策略数据确定的。

步骤306，根据各第一相关系数值和各第二相关系数值，从整合表中确定与客诉率相关的目标业务特征，得到更新整合表。

具体地，通过皮尔逊公式计算第一相关系数值和第二相关系数值；根据各第一相关系数值和各第二相关系数值，从整合表中确定与客诉率相关的目标业务特征，得到更新整合表，即依次遍历每两个业务特征组成的业务特征对，确定第一相关系数值大于第一预设值(例如，0.8)的业务特征对，删除该业务特务特征对中业务特征与客诉率值的第二相关系数值最小的业务特征，使确定的目标业务特征之间不存在共线性，得到更新整合表。

步骤308，根据复制次数对更新整合表进行复制并合并，得到数据集。

其中，复制次数根据要融合的客诉率预测模型的个数确定的。例如，客诉率预测模型分别为Prophet模型、XGBoost模型和ANN模型，将更新整合表复制成三份并进行合并，得到数据集。

具体地，根据复制次数对更新整合表进行复制并合并，得到数据集，对复制更新整合表得到的每份表增加的列标识，列标识与要待融合的客诉率预测模型存在一一对应的关系；并将数据集从数据库Hive中转移至目标数据库kafka中，便于数据集的获取，提高数据集的获取时效。

可选地，在一个实施例中，通过获取更新整合表中各目标业务特征的重要度；按照重要度从高到低的顺序对各目标业务特征进行排序，得到对应的重要排序表。

具体地，通过客诉率预测模型(例如，XGBoost)的特征重要度识别功能feature_importances，得到更新整合表中各目标业务特征的重要度；按照重要度从高到低的顺序对各目标业务特征进行排序，得到对应的重要排序表；其中，客诉率预测模型保存为py格式，可以通过spark每日调用该py文件，每日根据当天最新目标业务特征数据运行模型，得到各目标业务特征的重要度。

上述训练客诉率预测模型的数据集的确定方法，通过确定与客诉率相关的业务特征之间的第一相关系数值以及各业务特征与客诉率之间的第二相关系数值，删除与客诉率相关性弱的业务特征，得到与客诉率相关性强的目标业务特征，根据目标业务特征得到训练各客诉率预测模型的数据集，提高了训练数据的可靠性。

在一个实施例中，如图4所示，提供了一种确定客诉率预测模型的最佳训练窗口长度的方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤402，获取预设训练窗口长度集。

其中，预设训练窗口长度W集可以包括360天，450天和720天。

步骤404，通过时间序列模型预测各目标业务特征在第一时期的预测值，得到第一回测集。

其中，第一时期是指预测开始日期T之前的一段时期，例如，T-30至T期间。第一回测集是通过将数据集中预测开始日期T前n(n可以为30)天内，即第一时期(例如，T至T-30天)的各目标业务特征的数据作为时间序列模型Prophet的训练集，对Prophet模型进行训练，得到用于预测目标业务特征值的Prophet模型，通过Prophet模型预测各目标业务特征在T至T-30天的预测值，根据所得的预测值确定的。

可选地，通过Prophet模型预测各目标业务特征在T至T+7天的预测值，得到预测集数据。

步骤406，根据第一回测集，确定各客诉率预测模型的在第一时期的第一回测误差值。

具体地，从预设训练窗口长度集中依次选择每个预设训练窗口长度W，根据各预设训练窗口长度W从各客诉率预测模型的数据集中确定第二时期内的所有目标业务特征的数据，得到训练集，对对应的客诉率预测模型进行训练，得到训练过的客诉率预测模型；通过第一回测集对训练过的客诉率预测模型进行回测，得到每个预设训练窗口长度对应的第一回测误差值。第二时期是根据预设训练窗口长度和预测开始日期的前n天确定的，即T-30-W至T-30天内；第一回测误差值MAPE的计算表达式可以如下表示：

其中，n为第一回测集中预测值的个数。

步骤408，根据第一回测误差值从预测训练窗口长度集中确定最佳训练窗口长度。

具体地，将第一回测误差值最小对应的预测训练窗口长度确定最佳训练窗口长度。

上述确定客诉率预测模型的最佳训练窗口长度的方法，通过时间序列模型预测各目标业务特征在第一时期的预测值，得到第一回测集，根据第一回测集，确定各客诉率预测模型的在T-30至T期间的第一回测误差值，将第一回测误差值最小对应的预测训练窗口长度确定最佳训练窗口长度，即得到各客诉率预测模型的最佳训练窗口长度，通过确定最佳训练窗口长度可以加快模型收敛的速度，缩短模型训练的时长。

在一个实施例中，如图5所示，提供了一种确定客诉率预测模型的最重要业务特征个数的方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤502，获取预设重要业务特征个数集。

其中，预设重要业务特征个数集可以但不仅限于是[5,10,15]。

步骤504，根据预设重要业务特征个数集中各预设重要业务特征个数和重要度排序表，按照重要度从高到低的顺序从第一回测集中确定各预设重要业务特征个数个重要业务特征，得到第二回测集。

步骤506，根据各第二回测集，确定各客诉率预测模型的在第一时期的第二回测误差值。

具体地，依次从重要业务特征个数集中选取重要业务特征个数，根据每个预设重要业务特征个数和目标业务特征的重要度排序表，按照重要度从高到低的顺序从第一回测集中确定第二时期内各预设重要业务特征个数个重要业务特征以及各客诉率预测模型的日期特征的数据作为训练集，对各客诉率预测模型进行训练，得到训练后的客诉率预测模型；通过第二回测集对训练过的客诉率预测模型进行回测，得到第一时期内每个预设重要业务特征个数对应的第二回测误差值。

步骤508，根据各第二回测误差值从预设重要业务特征个数集中确定最重要业务特征个数。

具体地，将第二回测误差值最小对应的预设重要业务特征个数确定为最重要业务特征个数。

上述确定客诉率预测模型的最重要业务特征个数的方法中，通过根据预设重要业务特征个数集中各预设重要业务特征个数和重要度排序表，按照重要度从高到低的顺序从第一回测集中确定各预设重要业务特征个数个重要业务特征，得到第二回测集，根据第二回测集，确定各客诉率预测模型的在T-30至T期间的第二回测误差值，将第二回测误差值最小对应的预设重要业务特征个数确定为最重要业务特征个数，缩短模型训练的时长。

在一个实施例中，如图6所示，提供了一种确定客诉率预测模型的超参数组合的方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤602，确定各客诉率预测模型的候选超参数。

其中，不同客诉率预测模型的候选超参数不同的，例如，Prophet模型的候选超参数包括：

changepoint_prior_scale:[0.03,0.05,0.07]；holidays_prior_scale:[7,10,12],

seasonality_prior_scale:[7,10,12]；

XGBoost模型的候选超参数包括：

n_estimator:[500,600,700,800,900,1000,1200,1400]；

max_depth:[3,4,5,6,7,8,9,10]；min_child_weight:[1,2,3,4,5,6]；

gamma:[0,0.1,0.2,0.3,0.4,0.5,0.6]；subsample:[0.7,0.8,0.9,1]；

colsample_bytree:[0.6,0.7,0.8,0.9]；reg_alpha:[0,0.05,0.1,1,2,3]；

reg_lambda:[0.05,0.1,1,2,3]；learning_rate:[0.01,0.05,0.07,0.1,0.2]；

ANN模型的候选超参数包括：

batch_size:[10,20,40,60,80,100]；epochs:[10,50,100]；

dropout_rate:[0.1,0.4,0.7,0.9]。

步骤604，根据最佳训练窗口长度、最重要业务特征个数和第一回测集中的最重要业务特征个数个重要业务特征确定的第三回测集，确定各客诉率预测模型的在第一时期的最小回测误差值。

步骤606，基于最小回测误差值，确定各客诉率预测模型的最优参数组合。

具体地，根据最佳训练窗口长度和最重要业务特征个数，将T-30-Wbest与T-30期间最重要业务特征个数个重要业务特征以及日期特征的数据作为第三训练集，对各客诉率预测模型进行训练，得到训练后的客诉率预测模型；通过第三回测集对训练过的客诉率预测模型进行回测，得到第一时期内每个预设重要业务特征个数对应的第三回测误差值，将各第三回测误差值作为超参数搜索目标；根据贝叶斯优化理论和设置最大搜索次数，将确定的各客诉率预测模型的最小第三回测误差值对应的超参数组合作为最优参数组合。

上述确定客诉率预测模型的超参数组合的方法，通过第三回测集对训练过的客诉率预测模型进行回测，得到第一时期内每个预设重要业务特征个数对应的第三回测误差值，将各第三回测误差值作为超参数搜索目标；根据贝叶斯优化理论和设置最大搜索次数，将确定的各客诉率预测模型的最小第三回测误差值对应的超参数组合作为最优参数组合；即基于贝叶斯优化理论进行超参数搜索，避免对所有超参数进行遍历，提高了超参数遍历效率。

在一个实施例中，如图7所示，提供了一种用于多模型融合的客诉率预测模型的训练方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤702，确定用于训练各客诉率预测模型的数据集。

具体地，通过获取与客诉率预测值相关的业务特征集和对应的客诉率的整合表；根据各业务特征的历史值和客诉率的历史值，通过皮尔逊公式计算策略数据计算各业务特征之间第一相关系数值以及各业务特征与客诉率之间的第二相关系数值，根据各第一相关系数值和各第二相关系数值，从整合表中确定与客诉率相关的目标业务特征，得到更新整合表，以及进行复制合并，得到数据集。

步骤704，基于数据集，确定各客诉率预测模型的最佳训练窗口长度、最重要业务特征个数和超参数组合。

具体地，根据获取预设训练窗口长度集；通过时间序列模型预测各目标业务特征在第一时期的预测值，得到第一回测集；根据第一回测集，确定各客诉率预测模型的在T-30至T期间的第一回测误差值；根据第一回测误差值从预测训练窗口集中确定最佳训练窗口长度。

通过获取预设重要业务特征个数集；根据预设重要业务特征个数集中各预设重要业务特征个数和重要度排序表，按照重要度从高到低的顺序从第一回测集中确定各预设重要业务特征个数个重要业务特征，得到第二回测集；根据各第二回测集，确定各客诉率预测模型的在T-30至T期间的第二回测误差值；根据各第二回测误差值从预设重要业务特征个数集中确定最重要业务特征个数。

根据确定各客诉率预测模型的候选超参数、最佳训练窗口长度、最重要业务特征个数，和第一回测集中的最重要业务特征个数个重要业务特征确定的第三回测集，确定各客诉率预测模型的在T-30至T期间的最小回测误差值；基于最小回测误差值，确定各客诉率预测模型的最优参数组合。

步骤706，构建模型训练的训练数据集。

具体地，根据最佳训练窗口长度、最重要业务特征个数从数据集中确定目标业务特征以及日期特征的数据；将目标业务特征以及日期特征的数据作为训练数据集。

步骤708，基于最佳训练窗口长度、最重要业务特征个数和超参数组合，通过训练数据集对各客诉率预测模型进行训练，得到训练好的客诉率预测模型。

具体地，根据要训练的各客诉率预测模型，从数据库对应的分区中获取数据集，根据最佳训练窗口长度、最重要业务特征个数从数据集中确定重要业务特征以及日期特征的数据；将目标业务特征以及日期特征的数据作为训练数据集，通过训练数据集对各客诉率预测模型进行训练，得到训练好的客诉率预测模型；即将预测开始日期的最佳训练窗口长度内的最重要业务特征个数的重要业务特征以及日期特征的数据作为训练数据集，对各客诉率预测进行在线拟合训练。根据各客诉率预测模型的回测误差值确定各模型融合的权重占比，根据各权值占比对各客诉率预测模型进行融合。

上述用于多模型融合的客诉率预测模型的训练方法中，确定用于训练各客诉率预测模型的数据集，通过确定各客诉率预测模型的最佳训练窗口长度、最重要业务特征个数和超参数组合和训练数据集，可以在线同时对各客诉率预测模型进行训练，缩短的训练时长以及提高模型的训练效果，进而提高各模型预测的准确性。

在另一个实施例中，如图8所示，提供了一种基于多模型融合的客诉率预测方法，以该方法应用于图1中的终端为例进行说明，该方法包括以下步骤：

步骤802，确定用于训练客诉率预测模型的数据集。

具体地，终端从服务器中获取与客诉率预测值相关的业务特征集和对应的客诉率的整合表；根据各业务特征的历史值和客诉率的历史值，确定业务特征之间第一相关系数值以及各业务特征与客诉率之间的第二相关系数值；根据各第一相关系数值和各第二相关系数值依次遍历从业务特征集，得到保留整合表中与客诉率相关的目标业务特征的更新整合表；以及根据复制次数对更新整合表进行复制并合并，将各复制整合表存储在分区存储器中，得到模型训练的数据集；每份复制整合表存在与对应的客诉率预测模型关联的列标识；复制次数是根据预先构建的客诉率预测模型个数确定。

步骤804，基于数据集，确定各客诉率预测模型的最佳训练窗口长度、最重要业务特征个数和超参数组合。

具体地，按照重要度从高到低的顺序对各目标业务特征进行排序，得到对应的重要排序表。获取重要排序表以及根据各客诉率预测模型关联的列标识从分区存储器中获取对应的数据集；确定各客诉率预测模型的特征参数集(包括日期特征)；将预测开始日期T-30之前的各目标业务特征的历史值作为第一训练集，将Prophet模型预测各特征在T-30至T期间的预测值作为第一回测集；将预测开始日期T之前的各目标业务特征的历史值作为第二训练集，将Prophet模型预测各特征在T至T+7期间的预测值作为预测集。获取预设训练窗口时长W集；将T-30-W与T-30期间含所有目标业务特征的历史值作为第二训练集；根据第一回测集，确定各客诉率预测模型的在T-30至T期间的第一回测误差值；根据第一回测误差值从预测训练窗口集中确定最佳训练窗口长度。

获取预设重要业务特征个数N集；根据最佳训练窗口长度，将T-30-Wbest与T-30期间对应的各N个目标业务特征和日期特征作为第三训练集；根据第一回测集中的N个目标业务特征确定的第二回测集，确定各客诉率预测模型的在T-30至T期间的第二回测误差值；根据各第二回测误差值从预测训练窗口集中确定最重要业务特征个数。根据最佳训练窗口长度和最重要业务特征个数，将T-30-Wbest与T-30期间各预设重要业务特征个数个业务特征及日期特征的数据作为第三训练集；根据第一回测集中的Nbest个目标业务特征确定的第三回测集，确定各客诉率预测模型的在T-30至T期间的最小回测误差值；基于最小回测误差值，确定各客诉率预测模型的最优参数组合。

步骤806，构建模型训练的训练数据集。

步骤808，基于最佳训练窗口长度、最重要业务特征个数和超参数组合，通过训练数据集对各客诉率预测模型进行训练，得到训练好的客诉率预测模型。

步骤810，获取待预测业务特征。

具体地，通过Prophet模型预测各目标业务特征在第三时期内(T至T+7天，T为预测开始日期)的预测值，得到预测集数据，从预测集数据中根据重要度排序表确定最重要业务个数个重要业务特征，将确定最重要业务个数个重要业务特征作为待预测业务特征，得到待预测业务特征的数据。

步骤812，将待预测业务特征分别输入至少两个训练好的不同客诉率预测模型中，得到各客诉率预测模型输出的预测时段的日度客诉率预测值。

步骤814，根据各客诉率预测模型融合时的权重占比值确定对应的预测值权重。

步骤816，根据各预测权重和对应的日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值。

以下为一个实施例中，如图9所示，基于多模型融合的客诉率预测方法的应用场景，通过获取与客诉率相关的所有业务特征，将得到的业务特征与对应的客诉率的值整合为一个整合表，根据各业务特征的历史值和客诉率的历史值，通过皮尔逊公式计算策略数据确定业务特征之间第一相关系数值以及各业务特征与客诉率之间的第二相关系数值；根据各第一相关系数值和各第二相关系数值，从整合表中确定与客诉率相关的目标业务特征，得到更新整合表；以及根据复制次数对更新整合表进行复制并合并，得到数据集；并通过XGBoost模型确定各目标业务特征的重要度得到对应的重要排序表。

依次构建各客诉率预测模型(如模型A、模型B和模型C)的特征工程，确认各客诉率预测模型的日期特征，即Prophet模型中设置节假日列表参数；XGBoost、ANN模型中加入日期特性的特征，如年份、月份、日期数、星期数、是否周末、是否节假日。从各客诉率预测模型对应的数据库分区中获取数据(例如，模型A、模型B和模型C依次从数据库分区A、数据库分区B和数据库分区C中获取数据)，将T至T-30天的各目标业务特征的数据作为Prophet的训练集，对Prophet模型进行训练，得到用于预测目标业务特征值的Prophet模型，通过Prophet模型预测各目标业务特征在T至T-30天的预测值，作为第一回测集，通过Prophet模型预测各目标业务特征在T至T+7天的预测值，得到预测集数据。

根据第一回测集，确定各客诉率预测模型的在T-30至T期间的第一回测误差值；根据第一回测误差值从预测训练窗口集中确定最佳训练窗口长度；获取预设重要业务特征个数集；根据预设重要业务特征个数集中各预设重要业务特征个数和重要度排序表，按照重要度从高到低的顺序从第一回测集中确定各预设重要业务特征个数个重要业务特征，得到第二回测集；根据各第二回测集，确定各客诉率预测模型的在T-30至T期间的第二回测误差值；根据各第二回测误差值从预设重要业务特征个数集中确定最重要业务特征个数；确定各客诉率预测模型的候选超参数；根据最佳训练窗口长度、最重要业务特征个数，和第一回测集中的最重要业务特征个数个重要业务特征确定的第三回测集，确定各客诉率预测模型的在T-30至T期间的最小回测误差值；基于最小回测误差值，确定各客诉率预测模型的最优参数组合。

根据最佳训练窗口长度、最重要业务特征个数从数据集数据集中确定目标业务特征以及日期特征的数据；将目标业务特征以及日期特征的数据作为训练数据集。

从预测集数据中获取待预测业务特征，将待预测业务特征分别输入至少两个训练好的不同客诉率预测模型中，得到各客诉率预测模型输出的预测时段的日度客诉率预测值；根据各客诉率预测模型融合时的权重占比值确定对应的预测值权重；根据各预测权重和对应的日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值，将得到的目标日度客诉率预测值与确定的目标业务特征的重要度排序表在终端的显示屏上进行显示。

上述基于多模型融合的客诉率预测方法中，通过预先确定数据集，确定各客诉率模型的最佳训练窗口长度、最重要业务特征个数和超参数组合；预先构建训练数据，同时训练各客诉率预测模型(Prophet、XGBoost、ANN)；将业务特征分布输入至训练好的模型中，得到三组客诉率预测值，计算三组客诉率预测值的权重占比；根据各模型的误差权重和权重占比计算最终日度客诉率预测值，即通过在线对各客诉率预测模型进行训练，通过确定各模型融合权重，根据各模型的融合权值和误差权对各模型的日度客诉率预测值记性加权计算融合，进一步改善客诉率预测模型中预测集特征值缺失的弊端，提高了模型的预测准确性。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种基于多模型融合的客诉率预测装置，包括：获取模块1002、预测模块1004、确定模块1006和融合模块1008，其中：

获取模块1002，用于获取待预测业务特征。

预测模块1004，用于将待预测业务特征分别输入至少两个训练好的客诉率预测模型中，得到各客诉率预测模型输出的预测时段的日度客诉率预测值。

确定模块1006，用于根据各客诉率预测模型融合时的权重占比值和误差权重值确定对应的预测值权重。

融合模块1008，用于根据各预测权重和对应的日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值。

上述基于多模型融合的客诉率预测装置，通过将待预测的业务特征分别输入不同预先训练好的客诉率预测模型，得到不同客诉率预测模型预测的日度客诉率预测值，通过确定各模型融合权重，根据各模型的融合权值和误差权对各模型的日度客诉率预测值记性加权计算融合，进一步改善客诉率预测模型中预测集特征值缺失的弊端，提高了模型的预测准确性。

在另一个实施例中，提供了一种基于多模型融合的客诉率预测装置，除包括获取模块1002、预测模块1004、确定模块1006和融合模块1008之外，还包括：构建模块、训练模块、合并模块和排序模块，其中：

确定模块1006还用于确定用于训练客诉率预测模型的数据集；基于数据集，确定各客诉率预测模型的最佳训练窗口长度、最重要业务特征个数和超参数组合。

构建模块，用于构建模型训练的训练数据集。

训练模块，用于基于最佳训练窗口长度、最重要业务特征个数和超参数组合，通过训练数据集对各客诉率预测模型进行训练，得到训练好的客诉率预测模型。

获取模块1002用于获取与客诉率预测值相关的业务特征集和对应的客诉率的整合表。

确定模块1006还用于根据各业务特征的历史值和客诉率的历史值，确定业务特征之间第一相关系数值以及各业务特征与客诉率之间的第二相关系数值；根据各第一相关系数值和各第二相关系数值，从整合表中确定与客诉率相关的目标业务特征，得到更新整合表。

合并模块，用于根据复制次数对更新整合表进行复制并合并，得到数据集。

获取模块1002用于获取更新整合表中各目标业务特征的重要度。

排序模块，用于按照重要度从高到低的顺序对各目标业务特征进行排序，得到对应的重要排序表。

获取模块1002还用于获取预设训练窗口长度集。

预测模块1004还用于通过时间序列模型预测各目标业务特征在第一时期的预测值，得到第一回测集。

确定模块1006用于根据第一回测集，确定各客诉率预测模型的在T-30至T期间的第一回测误差值；根据第一回测误差值从预测训练窗口集中确定最佳训练窗口长度。

获取模块1002还用于获取预设重要业务特征个数集。

确定模块1006还用于根据预设重要业务特征个数集中各预设重要业务特征个数和重要度排序表，按照重要度从高到低的顺序从第一回测集中确定各预设重要业务特征个数个重要业务特征，得到第二回测集。

确定模块1006还用于根据各第二回测集，确定各客诉率预测模型的在第一时期的第二回测误差值；根据各第二回测误差值从预设重要业务特征个数集中确定最重要业务特征个数。

确定模块1006还用于确定各客诉率预测模型的候选超参数；根据最佳训练窗口长度、最重要业务特征个数，和第一回测集中的最重要业务特征个数个重要业务特征确定的第三回测集，确定各客诉率预测模型的在第一时期的最小回测误差值；基于最小回测误差值，确定各客诉率预测模型的最优参数组合；还用于根据最佳训练窗口长度、最重要业务特征个数从数据集中确定目标业务特征以及日期特征的数据；将目标业务特征以及日期特征的数据作为训练数据集。

在一个实施例中，通过获取与客诉率相关的所有业务特征，将得到的业务特征与对应的客诉率的值整合为一个整合表，根据各业务特征的历史值和客诉率的历史值，通过皮尔逊公式计算策略数据确定业务特征之间第一相关系数值以及各业务特征与客诉率之间的第二相关系数值；根据各第一相关系数值和各第二相关系数值，从整合表中确定与客诉率相关的目标业务特征，得到更新整合表；以及根据复制次数对更新整合表进行复制并合并，得到数据集；并通过XGBoost模型确定各目标业务特征的重要度得到对应的重要排序表。

依次构建各客诉率预测模型的特征工程，确认各客诉率预测模型的日期特征，即Prophet模型中设置节假日列表参数；XGBoost、ANN模型中加入日期特性的特征，如年份、月份、日期数、星期数、是否周末、是否节假日。通过将T至T-30天的各目标业务特征的数据作为Prophet的训练集，对Prophet模型进行训练，得到用于预测目标业务特征值的Prophet模型，通过Prophet模型预测各目标业务特征在T至T-30天的预测值，作为第一回测集，通过Prophet模型预测各目标业务特征在T至T+7天的预测值，得到预测集数据。根据第一回测集，确定各客诉率预测模型的在T-30至T期间的第一回测误差值；根据第一回测误差值从预测训练窗口集中确定最佳训练窗口长度；获取预设重要业务特征个数集；根据预设重要业务特征个数集中各预设重要业务特征个数和重要度排序表，按照重要度从高到低的顺序从第一回测集中确定各预设重要业务特征个数个重要业务特征，得到第二回测集；根据各第二回测集，确定各客诉率预测模型的在T-30至T期间的第二回测误差值；根据各第二回测误差值从预设重要业务特征个数集中确定最重要业务特征个数；确定各客诉率预测模型的候选超参数；根据最佳训练窗口长度、最重要业务特征个数，和第一回测集中的最重要业务特征个数个重要业务特征确定的第三回测集，确定各客诉率预测模型的在T-30至T期间的最小回测误差值；基于最小回测误差值，确定各客诉率预测模型的最优参数组合。

根据最佳训练窗口长度、最重要业务特征个数从数据集数据集中确定目标业务特征以及日期特征的数据；将目标业务特征以及日期特征的数据作为训练数据集。从预测集数据中获取待预测业务特征，将待预测业务特征分别输入至少两个训练好的不同客诉率预测模型中，得到各客诉率预测模型输出的预测时段的日度客诉率预测值；根据各客诉率预测模型融合时的权重占比值确定对应的预测值权重；根据各预测权重和对应的日度客诉率预测值进行加权计算融合，得到预测时段的目标日度客诉率预测值。

关于基于多模型融合的客诉率预测装置的具体限定可以参见上文中对于基于多模型融合的客诉率预测方法的限定，在此不再赘述。上述基于多模型融合的客诉率预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于多模型融合的客诉率预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多模型融合的客诉率预测方法，其特征在于，所述方法包括：

获取待预测业务特征；

将所述待预测业务特征分别输入至少两个训练好的不同客诉率预测模型中，得到各所述客诉率预测模型输出的预测时段的日度客诉率预测值；

根据各所述客诉率预测模型融合时的权重占比值确定对应的预测值权重；

根据各所述预测权重和对应的日度客诉率预测值进行加权计算融合，得到所述预测时段的目标日度客诉率预测值。

2.根据权利要求1所述的方法，其特征在于，所述客诉率预测模型的训练方法，包括：

确定用于训练所述客诉率预测模型的数据集；

基于所述数据集，确定各所述客诉率预测模型的最佳训练窗口长度、最重要业务特征个数和超参数组合；

构建模型训练的训练数据集；

基于所述最佳训练窗口长度、最重要业务特征个数和超参数组合，通过所述训练数据集对各所述客诉率预测模型进行训练，得到训练好的客诉率预测模型。

3.根据权利要求2所述的方法，其特征在于，所述确定用于训练所述客诉率预测模型的数据集，包括：

根据各所述业务特征的历史值和所述客诉率的历史值，确定所述业务特征之间第一相关系数值以及各所述业务特征与所述客诉率之间的第二相关系数值；

根据各所述第一相关系数值和各所述第二相关系数值，从所述整合表中确定与所述客诉率相关的目标业务特征，得到更新整合表；以及

根据复制次数对所述更新整合表进行复制并合并，得到数据集。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取所述更新整合表中各所述各目标业务特征的重要度；

按照重要度从高到低的顺序对各所述目标业务特征进行排序，得到对应的重要排序表。

5.根据权利要求3所述的方法，其特征在于，所述确定各所述客诉率预测模型的最佳训练窗口长度，包括：

获取预设训练窗口长度集；

通过时间序列模型预测各所述目标业务特征在第一时期的预测值，得到第一回测集；

根据所述第一回测集，确定各所述客诉率预测模型的在第一时期的第一回测误差值；

根据所述第一回测误差值从所述预测训练窗口集中确定最佳训练窗口长度。

6.根据权利要求4所述的方法，其特征在于，所述确定各所述客诉率预测模型的最重要业务特征个数，包括：

获取预设重要业务特征个数集；

根据预设重要业务特征个数集中各预设重要业务特征个数和所述重要度排序表，按照重要度从高到低的顺序从所述第一回测集中确定各预设重要业务特征个数个重要业务特征，得到第二回测集；

根据各所述第二回测集，确定各所述客诉率预测模型的在第一时期的第二回测误差值；

根据各所述第二回测误差值从所述预设重要业务特征个数集中确定最重要业务特征个数。

7.根据权利要求3所述的方法，其特征在于，所述确定各所述客诉率预测模型的超参数组合，包括：

确定各客诉率预测模型的候选超参数；

根据所述最佳训练窗口长度、所述最重要业务特征个数，和所述第一回测集中的最重要业务特征个数个重要业务特征确定的第三回测集，确定各所述客诉率预测模型的在第一时期的最小回测误差值；

基于所述最小回测误差值，确定各所述客诉率预测模型的最优参数组合。

8.根据权利要求2所述的方法，其特征在于，所述构建模型训练的训练数据集，包括：

根据所述最佳训练窗口长度、所述最重要业务特征个数从所述数据集数据集中确定目标业务特征以及日期特征的数据；

将所述目标业务特征以及日期特征的数据作为训练数据集。

9.一种基于多模型融合的客诉率预测装置，其特征在于，所述装置包括：

获取模块，用于获取待预测业务特征；

预测模块，用于将所述待预测业务特征分别输入至少两个训练好的客诉率预测模型中，得到各所述客诉率预测模型输出的预测时段的日度客诉率预测值；

确定模块，用于根据各所述客诉率预测模型融合时的权重占比值和误差权重值确定对应的预测值权重；

融合模块，用于根据各所述预测权重和对应的日度客诉率预测值进行加权计算融合，得到所述预测时段的目标日度客诉率预测值。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。