CN115147155A

CN115147155A - 一种基于集成学习的铁路货运客户流失预测方法

Info

Publication number: CN115147155A
Application number: CN202210785242.0A
Authority: CN
Inventors: 何娟; 谢文颖; 林蔚
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-04

Abstract

本发明公开了一种基于集成学习的铁路货运客户流失预测方法，采用多个基学习器组成第一层机器学习模型，使用K折交叉验证方法基于训练集生成训练好的基学习器，并将测试集输入训练好的基学习器，分别得到各个训练好的基学习器对测试集的预测结果；使用逻辑回归作为元学习器建立第二层机器学习模型，将各个训练好的基学习器对测试集的预测结果作为元学习器的特征值，由此形成Stacking融合模型对目标特征进行预测并输出预测结果，得到待测客户的流失概率。与现有技术相比，本发明的积极效果是：所构建的集成学习模型具有较强的泛化能力，能显著提升运行效率和输出结果的准确率，实现灵活、高精度的铁路货运客户流失预测。

Description

一种基于集成学习的铁路货运客户流失预测方法

技术领域

本发明涉及一种基于集成学习的铁路货运客户流失预测方法。

背景技术

随着我国交通运输服务高速发展，运输结构进一步优化，铁路货物发送量显著提升，但大宗商品和中长距离物流配送中公路、水路运输占比仍然较高。同时，客户的运输需求日益多样化，客户发货行为不稳定，铁路货物运输在与其他方式货物运输市场的竞争中始终面临较大的经营压力和客户流失的风险。在当前比较成熟且高度竞争的铁路货运市场环境下，获得优质稳定且价值较高的客户是保证铁路货运良性发展的重要前提。在持续推进大客户营销战略的前提下，重点关注客户的个性化服务需求，施行精细化的客户管理，了解并掌握单个客户的发货行为、流失概率，提前预知并制定有针对性的营销方案，是铁路把握绿色可持续交通的发展机遇，实现货运市场占有率的弯道超车的必要举措。

目前铁路领域涉及客户流失预测的方法较少，已有的方法主要依据客户的发货特征聚类得到各大类客户分类，再针对大类客户进行粗放式的流失预测，而结合铁路货运业务场景开展单个客户流失预测的发明创造为空白。目前客户流失预测的算法主要有传统统计分析方法和人工智能方法，传统统计分析方法难以实现对单个客户发货行为特征动态捕捉，人工智能方法在处理海量复杂数据特征方面具有更强的性能，同时为，同时为规避单一机器学习模型预测效果不佳、模型不稳定等弱点，因此本发明提出一种基于Stacking 集成学习的铁路货运客户流失预测方法，通过提取历史数据的发货特征构建和训练模型，有效实现了对单个货运客户的高精度流失概率预测和触发预测，并保证了模型的泛化能力。

发明内容

为了克服现有技术的上述缺点，本发明提出了一种基于Stacking集成学习的铁路货运客户流失预测方法，所构建的集成学习模型具有较强的泛化能力，能显著提升运行效率和输出结果的准确率，实现灵活、高精度的铁路货运客户流失预测。

本发明解决其技术问题所采用的技术方案是：一种基于集成学习的铁路货运客户流失预测方法，包括如下步骤：

步骤一、获取待预测铁路货运客户近一年内的历史发货订单原始数据集，并对原始数据集进行数据预处理；

步骤二、提取铁路货运客户流失预测的关键特征指标；

步骤三、基于客户行为数据信息对客户样本进行赋值得到铁路货运客户流失样本数据标签；将铁路货运客户特征数据及流失样本数据标签构建为新数据集，并将新数据集按预设比例划分为训练集和测试集；

步骤四、采用多个基学习器组成第一层机器学习模型，使用K折交叉验证方法基于训练集生成训练好的基学习器，并将测试集输入训练好的基学习器，分别得到各个训练好的基学习器对测试集的预测结果；

步骤五、使用逻辑回归作为元学习器建立第二层机器学习模型，将各个训练好的基学习器对测试集的预测结果作为元学习器的特征值，由此形成 Stacking融合模型对目标特征进行预测并输出预测结果，得到待测客户的流失概率。

与现有技术相比，本发明的积极效果是：本发明的基于Stacking集成学习的铁路货运客户流失预测方法相对于现有技术，将由待预测的客户数据构建铁路货运客户流失预测特征矩阵输入两层的Stacking融合模型中进行预测，通过模型高效、准确地预测并输出客户具体的流失概率。通过上述方法能够较为准确地预测出铁路货运客户流失风险，帮助铁路货运部门对客户实施精细化管理，设立“一户一码”标度其流失风险等级，从而实现风险状态可视化、行动信息明晰的客户流失预警方案，降低客户流失率。具体优点如下：

1.特征方面，本发明的特征指标构建契合铁路货运业务场景和客户的发货行为，依据实际应用场景，从客户发货时间频度、金额和发货趋势方面组合提取数据特征指标，将整合的特征集作为铁路货运客户流失预测模型的输入，提高了货运运行数据的质量，挖掘了货运运行数据的潜在价值，为接下来 Stacking集成学习模型优异的运行效能提供了良好的基础。

2.模型方面，本发明提出的Stacking集成学习模型和特征指标体系的构建大幅提高了铁路货运单个客户流失预测的精度，并且结果证明了该方法在铁路货运业务场景下拥有较强泛化能力，保障了实践使用过程的运行质量。

3.现实层面，基于Stacking集成学习的铁路货运客户流失预测方法不仅能为铁路货运客户关系管理提供决策支持，还能辅助铁路货运相关部门及时采取个性化的维系挽留策略，从而有效减少客户流失，增强铁路货运市场竞争力、提升铁路货运市场占比。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为基于Stacking集成学习的铁路货运客户流失预测方法流程图；

图2为训练周期与跨时间样本验证周期分布示意图；

图3为Stacking集成学习模型框架图；

图4为Stacking集成学习模型运行机制图；

图5为铁路货运客户流失预测特征数据的相关性分析热力图；

图6为基于Stacking集成学习模型铁路货运客户流失预测的ROC曲线；

图7为铁路货运客户流失概率统计图。

具体实施方式

一种基于集成学习的铁路货运客户流失预测方法，步骤主要包括数据预处理、数据打标、提取数据特征指标、构建基于集成学习的流失预测模型并训练评估模型、预测单个客户的流失概率并发出预测信号。在数据预处理阶段，进行缺失值、异常值处理和数据集成。在数据打标阶段，结合铁路货运业务实际情况界定客户流失标准，得到标记后的历史流失客户和非流失客户。在提取数据特征指标阶段，结合铁路货运客户发货行为特征整合数据集构建6个数据特征指标：R(时间间隔)、F(发货频率)、M (发货总金额)、D(发货最大金额)、K(近期发货能力)、V(发货倾向)，并结合时间窗设定划分实验数据。在流失预测模型构建阶段，建立基于集成学习的流失预测模型，第一层分类器采用随机森林、GBDT和LightGBM算法作为基分类器，第二层采用逻辑回归算法作为元分类器。利用提取数据特征后的特征集划分训练集、测试集和跨时间样本验证集训练模型，使用混淆矩阵、准确率、精确率、召回率、F1 Score、ROC曲线和AUC值评价指标对随机森林、GBDT、LightGBM和Stacking集成学习模型效果对比分析，验证模型的预测能力和泛化能力。在预测阶段，通过基于集成学习的流失预测模型预测各个客户的流失概率，对中、高流失概率的客户触发流失预测。

如图1所示，本发明方法包括如下步骤：

步骤1：提取待预测铁路货运客户近一年内的历史发货订单原始数据集，并对原始数据集进行数据预处理；

步骤2：依据基于拓展RFM模型、通过特征相关性分析和重要性排序进行特征选择构建的铁路货运客户流失预测特征指标体系，处理原始数据集获得关键特征指标，并作为特征矩阵输入本模型；

步骤3：基于客户行为数据信息具体定义铁路货运客户流失并对客户样本进行赋值得到铁路货运客户流失样本数据标签；

步骤4：将铁路货运客户特征数据及客户样本标签整理为新数据集，按预设比例划分为训练集和测试集，并划分跨时间样本验证数据集，作为模型的输入数据集；

步骤5：选取随机森林、GBDT、LightGBM作为基学习器以搭建第一层模型，使用K折交叉验证方法基于训练集生成训练好的基学习器，并将测试集输入训练好的基学习器，分别得到三个训练好的基学习器对测试集的预测结果；使用逻辑回归作为元学习器建立第二层模型，将三个训练好的基学习器对测试集的预测结果作为元学习器的特征值，由此形成Stacking融合模型对目标特征进行预测并输出预测结果，得到待测客户的流失概率。其中：

1.数据提取和预处理

从95306后台数据中调取铁路货运货票数据，以货票编号、发货人代码、制票日期、主品名汉字、主品名代码、货票总金额、计费重量特征属性构建数据集，并对为空值且无法进一步获取的数据，采取直接删除法处理。进一步，以发货人代码为主键，将同一客户(发货人)的多条货票数据的特征属性整合。再通过观测数据集内客户发货行为的特征属性，发现仅有一次发货行为客户的发货量(计费重量)和货票金额较小，且无法反映客户流失的趋势，因此删除数据集中只存在一次发货行为记录的客户，最终选取不少于两次发货记录的客户进行流失预测。

2.构建和提取特征指标

依据基于拓展RFM模型、通过特征相关性分析和重要性排序进行特征选择构建的铁路货运客户流失预测特征指标体系，处理原始数据集获得关键特征指标，并作为特征矩阵输入本模型；其中特征相关性分析主要是使用 Python中的seaborn库计算衍生特征的线性相关系数，相关性系数的绝对值越大表明相关性越强，并绘制皮尔逊相关性热力图查看特征之间的相关程度；其中重要性排序主要是使用随机森林的Feature importance的变量维度重要性排序，其值越大表示该特征对目标属性的预测能力越强，得到样本中每个特征的维度重要性；本发明构建的铁路货运客户运单数据特征指标如表1所示。

表1铁路货运客户运单数据特征指标构建

3.数据打标

客户流失预测模型通常需要建立数据标签，通过数据挖掘技术对客户的数据表现进行数据标记，从而对客户未来流失倾向进行预测。本发明将铁路货运客户在未来一段时间里有无发货行为作为客户流失判定的依据，结合时间窗口的设定，以此来定义铁路货运客户流失数据标签。铁路货运客户发货行为具有季节性、波动性和随机性特点，为最大程度上获取客户发货行为的信息、观察客户发货行为特征，需设定较长时期的时间窗口，本发明以12个月为单位设立时间窗口。铁路货运客户流失数据标签具体为定义在t-2时间窗口产生发货行为且发货次数不少于2次，但在t-1时间窗口未产生发货行为的客户判定为流失客户。

例：某客户在2017年1月至12月有发货行为且发货次数不少于2次，但在2018年1月至12月未产生发货行为，则判定该客户为流失客户，数据标记值为1；如某客户在2017年1月至12月有发货行为且发货次数不少于2 次，且在2018年1月至12月也产生了发货行为，即为正常的留存客户，数据标记值为0。

4.构建输入数据集

1)训练集与测试集

将原始数据集随机划分为训练集和测试集两类，其中训练集占总体样本的70％，测试集占30％。训练集主要用作客户分类预测模型的构建，测试集主要用作测试、衡量和评估模型的有效性。

2.)跨时间样本验证数据集

考虑到铁路货运客户的发货行为特性，本发明采用多周期训练数据方法，划分跨时间样本数据集，将所有数据样本滚动划分为多个时间窗口并依照周期顺序依次排列，即将历史行为数据多次采样观测，使得数据样本具有动态的数据特征和较大的信息密度，同时验证模型的泛化能力。

例：将2017年1月至12月的货票数据作为训练周期的观察窗口，将 2018年1月至12月的货票数据作为训练周期的表现窗口和跨时间样本验证周期的观察窗口，并将2019年1月至12月的货票数据作为跨时间样本验证周期的表现窗口，如图2所示。通过跨时间样本数据的验证，增加了数据的利用率的同时验证模型的泛化能力。

5.构建和训练集成学习Stacking模型

集成学习(Ensemble Learning)是将多个模型通过某种策略集成起来，利用群体决策得到更优越的泛化性能和更高的决策准确率，常用的集成策略有加权平均和直接平均等，通常采取Bagging和Boosting两类方法来增加模型间的差异性。Bagging类每轮训练的数据集是有放回选取不同的，且最终进行学习器组合时各学习器权重相同；而Boosting类学习器为串行，每轮训练的数据集相同，且小误差的学习器具有大权重，后序模型依赖于前序模型。其中，Bagging的代表性方法有随机森林，Boosting的代表方法有GBDT、 LightGBM等。

Stacking作为一种新兴的集成学习方法，通过胜者全得的机理完成异源集成，本质上是一种分层结构，在解决分类问题时通常分为两层。首先，多个基分类器组成第一层，训练数据是各基分类器的输入。第二层是元分类器，训练数据由原始训练数据标签和第一层基分类器的输出组成。元分类器经过训练后得到最终输出结果。一个两层的Stacking模型框架图如图3所示。

如图4所示，构建一个两层的Stacking集成模型的流程主要分为以下几个步骤：

步骤一：将数据分为训练集和测试集两个部分。

步骤二：引入五折交叉验证方法将训练集划分成五份。在训练各个基分类器时，每次取其中四份训练模型，把第五份的特征输入训练好的模型进行预测，以得到预测值。再重复上述步骤四次，获得完整的五份预测值。将五份预测值合并起来得到一列预测值，其长度与训练数据长度相同。

步骤三：针对各个基分类器分别进行步骤二的流程，得到模型对应的训练集和测试集的预测结果。再将每个基分类器得到的预测值与原始训练数据的标签值堆叠起来作为第二层元分类器的输入进行训练和预测。可将第一层所有模型看作一个大型的特征转换器，第二层应用转换后的特征进行最终预测，Stacking集成学习模型由此生成。

本发明基于集成学习(Stacking)构建融合模型，第一层分类器采用随机森林、GBDT和LightGBM算法作为基分类器，第二层采用逻辑回归算法作为元分类器，在建立数据集特征属性的基础上进行模型训练，并且通过测试集和跨时间样本测试数据集分别验证各模型的预测能力和泛化能力。

5.1决策树

决策树(Decision Tree)是基于树结构的模型，其核心思想是从树根出发，依据相应准则选定根结点，每一根结点代表一个分类实例的特征，然后采用递归方法完成树的分支处理，每一分支代表相应的数据集划分规则，最终到达叶子结点，每一叶子结点代表一种分类结果。决策树模型构建流程如下：

设训练集为D，特征集为S；

步骤一：生成头部根结点；

步骤二：若D中实例均为类A，则将类A标记，将该结点标记为叶子结点后返回决策树；

步骤三：若S＝φ或D中实例在S上属于同一类，将该结点标记为叶子结点，其类别标记为D中样本量最多的类，返回决策树；

步骤四：从S中选出最佳划分特征，以该特征的值为结点生成相对应分支。将上述步骤循环，直至全部样本类别被大致正确划分或无合适特征。

构建决策树实质上是基于一定规则方法不断地对特征进行选择，从而对数据集进行类别的划分并生成一颗完整的决策树。根据不同的特征划分准则，决策树可分为CART算法、ID3算法和C4.5算法三种，分别对应的特征划分准则为GINI系数、信息增益和信息增益率。其中，CART算法的划分准则如下：

设训练集为D，数据分为K类，A_k,k∈(1,...K)，是D中类别为k类的样本子集，则D的基尼系数计算公式如式(1)所示。

在二分类问题中，若训练集D的样本数据仅含两类标记值，即分类标准为是否属于类别A，设|A|/|D|为D中样本属于类别A的概率，则D的基尼系数计算公式如式(2)所示。

5.2随机森林模型

随机森林(Random Forest)，核心思想是利用Bagging算法中的自主抽样法(Bootstrap Sampling)构建多棵决策树作为基学习器，并通过取各基学习器评估值的众数获得综合输出值。随机森林算法生成过程如下：

已知训练集为D，特征集为S，迭代次数为M,

步骤一：从训练集D中使用自助抽样法随机迭代抽取M次，获得M个训练子集D_i,i＝1,...,M，从特征集S中随机抽取特征子集S_i,i＝1,...,M，其中|D_i|<|D|, |S_i|<|S|；

步骤二：根据得到的每个训练子集D_i构建对应的基分类器M_i。在特征子集S_i中依据最佳特征方法确定基分类器的分支节点。

步骤三：将构建好的M个基分类器以某种策略结合成随机森林，即由M 棵树的输出标签决定最终结果。

不同于决策树，随机森林在生成树的过程中，对单棵树的节点划分采用的方式是随机抽取样本特征，从中选择最优的分类特征。作为对多棵决策树的集成，随机森林可大量快速处理数据，克服了决策树易产生过拟合现象，具有更优良的稳定和泛化性能。

5.3 GBDT模型

GBDT(Gradient Boosting Decision Tree)，即梯度提升决策树，是在 Boosting框架中构建弱分类器的一种方法，实质是对每个以决策树作为基函数的分类器进行迭代的算法，各基分类器均在上个分类器结论的基础上进行学习，将多个学习器的累加结果作为最后输出结果。

设训练集

y_i＝{-1,+1}，以下为GBDT分类算法的流程：

(1)初始化弱分类器：

(2)对每一迭代次数m,m＝1,…,M：

步骤一，对每个样本i,i＝1,…,n，利用损失函数计算负梯度值：

L(y_i,f(x_i))＝log(1+exp(-y_if(x_i))) (4)

将该值视为残差的近似值：

步骤二，将得到的残差

训练下棵树f_m(x)，设树m的叶子节点数为J，叶子区域为R_mj,j＝1,...,J；

步骤三，对于j＝1,...,J，计算叶子区域最佳拟合值：

对其近似值进行计算：

将学习器更新：

(3)最终学习器为：

5.4 LightGBM模型

LightGBM算法在原理上和GBDT类似，是对梯度提升树的高效实现，在各类数据的应用场景下都支持高效能的并行训练。

LightGBM先评估样本梯度大小进行采样，计算样本分裂增益，保留梯度值较大的样本，随机去除梯度值较小的样本，再重新计算样本分裂增益。

LightGBM以近似贪心算法求解，对可以合并的目标特征进行搜寻并进行合并。此策略减轻了数据特征维度过高时计算复杂度增加的问题，提高数据的稠密程度和模型的运行速度，并且可以忽略对模型准确度的影响。

LightGBM以带深度限制的Leaf-wise叶子生长策略。树模型的叶子生长策略主要分为Leaf-wise和Level-wise两种。Leaf-wise是每次分裂只选择该层增益最大的叶子节点，Level-wise则是基于层进行增长，即同时分裂当前层的所有节点。Leaf-wise叶子生长策略能够在分裂层数相同的情况下减少不必要的计算、获得更高的精度，同时加入最大深度限制规则，既保证高效率又防止过拟合。

5.5模型评价指标

针对铁路货运客户流失预测的二分类问题，本发明选择准确率、精确率、召回率、F1 Score、ROC曲线和AUC值几个评估指标来进行效果评估，具体内容如下：

(1)准确率(Accuracy)，指被所有客户数中分类正确的客户数所占比例：

(2)精确率(Precision)，指所有预测流失的客户数中预测正确的流失客户数所占比例，精确率越高，模型识别负类样本的能力越强：

(3)召回率(Recall)，指所有真实流失的客户数中预测正确的流失客户数所占比例，召回率越高，模型识别正类样本的能力越强：

(4)F1 Score(Balanced Score)，是一个衡量二分类模型精确度的综合指标，是精确率和召回率的加权综合平均数，F1 Score值越高，模型越稳健：

(5)ROC曲线(Receiver Operating Characteristic)，也称受试者工作特征曲线，指绘制以真正例率(TPR)作为纵轴、以假正例率(FPR)作为横轴的曲线概率分布来衡量模型性能，从而对模型进行全局评估：

(6)AUC值(Area Under Curve)，指ROC曲线下的区域面积大小，取值范围为0.1到1，AUC值越接近1，模型的分类效果越好。相较于其他指标而言，AUC值不关注具体得分，而是只关注排序结果，能够直观地以数值的方式呈现分类器的优劣，更适合用作整体评价指标。

因此，本发明根据实际需求，选用AUC值作为主要评价指标，混淆矩阵及相关性能指标为辅，对模型进行综合评估。

6.铁路货运客户流失预测等级

将集成模型输出的每个铁路货运客户流失概率从低到高进行排序，得到各流失概率段的客户数量分布直方图，将铁路货运客户分成4种不同风险等级的客户类别，主要包括稳定客户和低、中、高风险客户，具体情况如表2 所示。

表2客户流失风险等级分析表

具体实例：

以某铁路集团公司2015-2019年的货票数据为例，结合数据特征对数据进行处理，设立时间窗口并将订单数据集成为每个客户的详细历史数据，提取客户发货行为特征构建特征集，分别训练随机森林、GBDT、LightGBM和集成学习的流失预测模型。使用准确率、精确率、召回率、F1 Score、ROC曲线和AUC值评价4个模型的性能，验证模型的预测能力和泛化能力。在预测阶段，通过基于集成学习的流失预测模型预测各个客户的流失概率，对中、高流失概率的客户预测。

(一)数据提取和预处理

(1)获取待预测铁路货运客户近一年内的历史发货订单原始数据集；

本实例中原始数据集包括货票编号、客户代码、制票日期、货票金额、计费重量及总里程等变量。

(2)数据预处理与数据集成

对本实例中原始数据集进行数据预处理；对预处理后的数据进行集成得到铁路货运客户样本；

(2a)数据预处理

步骤包括数据清洗，根据HPID(货票编号)核查是否存在重复的发货订单数据，若存在重复值则删除；排查缺失值、异常值，使用替换法利用特定变量的特征值进行替换；

(2b)数据集成

由于同一客户多次办理发货业务，每一次办理发货业务均会生成一条新的发货记录，针对这种情况，根据数据集中相同的客户代码，将同一客户在不同时间段进行发货的多条数据过滤整合为样本属性。

(二)构建和提取特征指标

拓展RFM模型构建铁路货运客户流失预测特征工程，通过特征相关性分析和重要性排序进行特征选择，获得关键特征指标构成模型输入特征矩阵；

(1)特征衍生

利用客户关系领域中被广泛适用于分析客户价值的RFM模型，基于对铁路货运的业务理解及铁路货运客户的发货行为，拓展RFM模型进行特征衍生；

(2)特征相关性分析

本实例中，使用Python中的seaborn库计算衍生特征的线性相关系数，相关性系数的绝对值越大表明相关性越强，绘制皮尔逊相关性热力图查看特征之间的相关程度，如图5所示；

(3)特征重要性排序

本实例中，使用随机森林的Feature importance的变量维度重要性排序，其值越大表示该特征对目标属性的预测能力越强，得到样本中每个特征的维度重要性；

(4)特征指标

构成模型输入特征矩阵的关键特征指标具体包括：R-发货时间间隔，客户最近一次下单发货时间距离观察窗口末端时间间隔；F-发货次数，铁路货运客户在观察窗口内的下单发货次数；M-发货总金额，铁路货运客户在观察窗口内下单发货产生的消费总金额；D-最大发货金额，铁路货运客户在观察窗口内下单发货产生的最大金额；K-近期发货能力，铁路货运客户最近一次下单发货时间距离观察窗口末端时间的间隔与客户平均发货时间间隔的比值，其公式为

V-发货倾向，铁路货运客户前后两次发货周转量差值与观察窗口内总发货次数的比值的加权平均值与算术平均值的差值，其公式为

其中，V_i表示客户第i次发货周转量和第i+1次发货周转量的差值，发货周转量为计费重量与总里程的乘积。

(三)数据打标和构建输入数据集

(1)定义样本数据标签

在本实例中，基于客户行为数据信息具体定义铁路货运客户流失并对客户样本进行赋值得到铁路货运客户流失样本数据标签，以客户在未来一段时间里即客户在下一年度是否产生发货行为作为客户流失判断的依据，对客户样本进行赋值得到所述客户样本标签，其中流失客户的标签设置为1，未流失客户的标签设置为0；

(2)划分数据集

在本实例中，将铁路货运客户特征数据及客户样本标签整理为新数据集，将其按预设比例划分为训练集和测试集，其中训练集占总体样本的70％，测试集占30％。

(四)构建和训练Stacking集成学习模型

Stacking方法并行地学习多个同质弱分类器，并训练一个元模型将它们组合在一起，根据多个弱分类器的结果输出一个最终预测结果。在两层的 Stacking集成模型中，第一层为基分类器，由实验表现较优的机器学习方法组成；由于第一层的机器学习方法将数据中的特征进行了提取和学习，是一种非线性的变换方式，通常第二层的元分类器会选用结构简单的广义线性模型如逻辑回归模型等，以保证模型的稳定性和防止过拟合。

在本实例中，RF、GBDT、LightGBM三种模型在铁路货运业务场景下具有较好的预测效果，可以有效识别具有流失倾向的客户，将三种模型作为第一层基分类器，第二层元分类器使用逻辑回归模型。

(1)建立第一层机器学习模型

选取随机森林、GBDT、LightGBM作为基学习器以搭建第一层模型，使用 K折交叉验证方法基于训练集生成训练好的基学习器，并将测试集输入训练好的基学习器，分别得到三个训练好的基学习器对测试集的预测结果；

(2)K折交叉验证方法的使用

本实例中所采用的K折交叉验证方法，K值取值为5，具体为：将训练集划分为相等的5份，在训练各个基分类器时，每次取其中4份训练模型，将第5份的特征输入训练好的模型进行预测，以得到预测值；再重复上述步骤4 次，获得完整的5份预测值。将5份预测值进行结合得到预测结果，其长度与训练数据长度相同，如图4所示；

(3)模型参数设置

本实例中三个基学习器的参数设置如表3所示。

表3三个基学习器的参数设置

(4)建立第二层机器学习模型

使用逻辑回归作为元学习器建立第二层模型，将三个训练好的基学习器对测试集的预测结果作为元学习器的特征值，将真实值作为标签，逻辑回归算法作为元学习器，形成Stacking融合模型。

(5)模型评价指标

本实例利用随机森林模型、GBDT模型、LightGBM模型和Stacking融合模型对测试集进行铁路货运客户流失预测，使用包括准确率、精确率、召回率、F1 Score、ROC曲线和AUC值在内的多个评价指标对预测结果进行评价，具体介绍如下：

本实例对四种机器学习模型在测试集上的实验结果进行比较，ROC曲线如图6所示，准确率、精确率、召回率、F1 Score和AUC值如表4所示。

表4四种预测模型在测试集上的实验结果

从表4可以看出，本发明提供的Stacking预测方法的较基学习器的预测准确率、精确率、F1 Socre以及AUC值均有一定程度的提升。与单一机器学习方法相比，本发明构建基于Stacking集成学习方法的铁路货运客户流失预测模型，能够获得较于单一模型更高的预测准确度和精度以及更好的模型泛化能力，为铁路货运客户流失问题提供了新的预测方法，并进一步帮助指导铁路货运企业降低客户流失率，具有较高的现实意义和实践应用价值。

(五)基于Stacking集成学习的预测结果

从训练模型输出Stacking集成学习模型在跨时间样本验证数据集上每个客户的流失概率值，流失概率值越大，客户流失的可能性越高。结合实际数据，输出具体的客户流失概率结果如表5所示。

表5集成学习模型预测流失概率表

将集成学习模型输出的每个铁路货运客户流失概率并从低到高进行排序，得到各流失概率段的客户数量分布情况，如图7所示。

根据4种不同流失风险等级的客户类别，客户流失概率分布情况如表6 所示，对中高流失风险客户预测，建议铁路货运营销部门针对该类客户制定相应的营销策略。

表6铁路客户流失风险预测等级分布

本实施例的实验环境为Windows10系统，处理器为Intel(R)Core(TM) i7-1065G7CPU@1.30GHz 1.50GHz，程序语言Python3.7，编译环境 Anaconda，主要使用的库有pandas、seaborn、matplotlib、numpy、scikit- learn和lightgbm，其中numpy和pandas用于数据处理，seaborn和matplotlib用于在数据分析中绘制相应的图像，scikit-learn用于建立随机森林和GBDT模型，LightGBM模型使用官方开源的lightgbm库来建立。

Claims

1.一种基于集成学习的铁路货运客户流失预测方法，其特征在于：包括如下步骤：

步骤二、提取铁路货运客户流失预测的关键特征指标；

步骤五、使用逻辑回归作为元学习器建立第二层机器学习模型，将各个训练好的基学习器对测试集的预测结果作为元学习器的特征值，由此形成Stacking融合模型对目标特征进行预测并输出预测结果，得到待测客户的流失概率。

2.根据权利要求1所述的一种基于集成学习的铁路货运客户流失预测方法，其特征在于：关键特征指标包括发货时间间隔R、发货次数F、发货总金额M、最大发货金额D、近期发货能力K和发货倾向V。

3.根据权利要求2所述的一种基于集成学习的铁路货运客户流失预测方法，其特征在于：近期发货能力K按如下公式计算：

其中：T为客户平均发货时间间隔。

4.根据权利要求2所述的一种基于集成学习的铁路货运客户流失预测方法，其特征在于：发货倾向V按如下公式计算：

5.根据权利要求1所述的一种基于集成学习的铁路货运客户流失预测方法，其特征在于：所述基学习器包括随机森林、GBDT和LightGBM。

6.根据权利要求1所述的一种基于集成学习的铁路货运客户流失预测方法，其特征在于：所述K折交叉验证方法为：将训练集划分为相等的K份，在训练各个基分类器时，每次取其中K-1份训练模型，将第K份的特征输入训练好的模型进行预测，以得到预测值；再重复上述步骤K-1次，获得完整的K份预测值；再将K份预测值进行结合得到预测结果。

7.根据权利要求1所述的一种基于集成学习的铁路货运客户流失预测方法，其特征在于：基于客户行为数据信息对客户样本进行赋值的方法为：以客户在未来一段时间里是否产生发货行为作为客户流失判断的依据，对客户样本进行赋值得到所述客户样本标签，其中流失客户的标签设置为1，未流失客户的标签设置为0。

8.根据权利要求1所述的一种基于集成学习的铁路货运客户流失预测方法，其特征在于：训练集占总体样本的70％，测试集占30％。

9.根据权利要求1所述的一种基于集成学习的铁路货运客户流失预测方法，其特征在于：采用跨时间样本验证数据集验证模型的泛化能力，采用多周期训练数据方法，划分跨时间样本数据集，将所有数据样本滚动划分为多个时间窗口并依照周期顺序依次排列。