CN111538873A

CN111538873A - 一种基于端对端模型的电信客户流失概率预测方法及系统

Info

Publication number: CN111538873A
Application number: CN201911335080.5A
Authority: CN
Inventors: 刘勇; 赵锡成; 马新强; 周雪; 杨建党; 钟保全; 张可鑫; 沈立凯; 张少华; 杨曦; 徐晋鸿
Original assignee: Zhejiang University ZJU; China United Network Communications Corp Ltd
Current assignee: Zhejiang University ZJU; China United Network Communications Corp Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-08-14

Abstract

本发明提供一种基于端对端模型的电信客户流失概率预测方法及系统，涉及数据安全技术领域，其中一种基于端对端模型的电信客户流失概率预测方法，包括以下步骤：S1：获取电信客户数据，对获取的数据标记；S2：对数据预处理，处理异常值和缺失值，对数据标准化处理，训练客户概率预测子模型；S3：将子模型的结果融合，训练融合模型，得到客户流失概率预测模型；S4：获取客户流失概率值。本发明一种基于端对端模型的电信客户流失概率预测方法及系统应用大数据与人工智能技术对电信行业的客户流失概率预测，将基于集成学习的方法应用在概率预测上，具有较好的预测准确率，降低了人工判断的成本和时间，为企业维系客户提供重要参考数据。

Description

一种基于端对端模型的电信客户流失概率预测方法及系统

技术领域

本发明涉及数据预测技术领域，

尤其是，本发明涉及一种基于端对端模型的电信客户流失概率预测方法及系统。

背景技术

近年来随着移动电话的普及以及电信行业的不断发展，整个行业也逐渐趋于饱和。在这种环境下，增加新的客户也变得越来月困难，因此各大电信公司除了推出更加吸引人的业务之外，更重要的是从已有的用户中及时发现即将要流失的用户，也就是要保证现有客户的稳定性。而做到这一点，需要企业对于客户的行为有明确的判断和认识，而实际中每个用户都有自己的行为习惯，且差异较大，分析起来难度较大，难以准确识别出即将流失的客户，如何快速定位有流失趋势的客户成为了企业所关心和急需解决的重要问题。

针对这种现象，需要一套行之有效的方法和策略来实现客户流失概率的预测，及时将即将流失的客户信息提供给企业，随后企业制定相关策略来吸引客户继续使用相关产品，减少企业的损失。

所以，如何设计一种电信客户流失概率预测方法或者系统，成为我们当前急需要解决的问题。

发明内容

本发明的目的在于提供一种应用大数据与人工智能技术对电信行业的客户流失概率进行预测，并将基于集成学习的方法应用在概率预测上，具有较好的预测准确率，降低了人工判断的成本和时间，为企业维系客户提供重要参考数据的电信客户流失概率预测方法。

为达到上述目的，本发明采用如下技术方案得以实现的：

一种基于端对端模型的电信客户流失概率预测方法，该预测方法包括以下步骤：

S1：获取电信行业客户数据，并对获取的数据进行标记；

S2：对数据进行预处理，处理异常值和缺失值，对数据进行标准化处理，训练客户概率预测子模型；

S3：将子模型的结果进行融合，训练融合模型，得到最终的客户流失概率预测模型；

S4：获取客户流失的概率值。

作为本发明的优选，步骤S1具体包括：

S11：通过Hive将位于服务器上的客户数据采集到本地系统，并根据客户的 ref_id哈希分桶分块存储；

S12：对存到本地系统的所有用户进行标定，确定流失用户和非流失用户；

S13：根据入网时间区分新用户和老用户。

作为本发明的优选，执行步骤S1时，获取的数据类别包括月数据、日数据和静态数据。月数据包括：号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10的应用以及是否超套；静态数据包括：号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码；日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数。

作为本发明的优选，步骤S2具体包括：

S21：对数据进行预处理，依据3σ准则将异常值剔除，将含有缺失值的样本剔除；

S22：对数据集进行划分，在所有数据中划分为训练集和测试集；

S23：预测子模型初始化，设置子模型，得到最终的子预测模型，通过预测子模型，得到初始的客户流失概率预测值；

S24：设置损失函数来处理数据集的非平衡分布，在损失函数部分增加调节系数用于控制正负样本下模型的损失；

S25：训练预测子模型，将训练数据集按照5折交叉验证进行划分，最终训练集数据的评估结果为5次训练的平均值。

作为本发明的优选，执行步骤S23时，设置子模型包括：

深度因子分解机模型DeepFM子模型：

其中

深度残差网络ResNet子模型：

以及长短时间记忆网络LSTM子模型：

其中h^t＝o^t e tanh(C^t)，

其中o^t＝σ(W_oh^t-1+U_ox^t+b_o)，C^t＝C^t-1e f^t+i^te a^t，

其中: f^t＝σ(W_fh^t-1+U_fx^t+b_f)，i^t＝σ(W_ih^t-1+U_ix^t+b_i)，a^t＝tanh(W_ah^t-1+U_ax^t+b_a)。

作为本发明的优选，步骤S3具体包括：

S31：基于Stacking模型融合策略，设置融合模型模型算法为逻辑回归算法；

S32：模型输入参数为三个子模型预测的客户流失概率预测值，通过优化求解最优的参数θ，得到最终融合后的客户流失概率；

S33：最优的融合模型参数，生成最终的客户流失概率模型。

作为本发明的优选，步骤S4具体包括：

S41：将所述测试集数据进行预处理，按照模型设计的模型接口格式，生成能够用于模型输入的数据集；

S42：用于设定评价指标，定义正确率和召回率为分类器最终的评价指标；

S43：基于所述模型和数据，获得最终的客户流失概率预测结果。

另一方面，本发明中另外还提供一种基于端对端模型的电信客户流失概率预测系统，该系统包括：

数据收集模块；

子模型训练模块；

模型融合模块；

客户流失预测模块；

数据收集模块获取电信行业客户数据，并对获取的数据进行标记，子模型训练模块对数据进行预处理，处理异常值和缺失值，对数据进行标准化处理，训练客户概率预测子模型，模型融合模块将子模型的结果进行融合，训练融合模型，得到最终的客户流失概率预测模型，客户流失预测模块获取客户流失的概率值。

作为本发明的优选，本发明一种基于端对端模型的电信客户流失概率预测系统中，数据收集模块包括数据采集单元、数据标定单元以及新老客户区分单元。

作为本发明的优选，本发明一种基于端对端模型的电信客户流失概率预测系统中，子模型训练模块包括数据预处理单元、数据集划分单元、模型初始化模块、非平衡样本处理单元以及子模型训练单元。

作为本发明的优选，本发明一种基于端对端模型的电信客户流失概率预测系统中，模型融合模块包括融合模型初始化单元、融合模型初始化单元以及融合模型训练单元。

作为本发明的优选，本发明一种基于端对端模型的电信客户流失概率预测系统中，模型融合模块包括测试集数据预处理模块、模型性能评估单元以及客户流失概率输出单元。

作为本发明的优选，本发明一种基于端对端模型的电信客户流失概率预测系统中，数据采集单元采集数据包括月数据、日数据和静态数据，月数据包括：号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近 30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10的应用以及是否超套；静态数据包括：号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码；日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数。

作为本发明的优选，本发明一种基于端对端模型的电信客户流失概率预测系统中，模型初始化模块设置的子模型包括：

深度因子分解机模型DeepFM子模型：

其中

深度残差网络ResNet子模型：

以及长短时间记忆网络LSTM子模型：

其中h^t＝o^te tanh(C^t)，

其中o^t＝σ(W_oh^t-1+U_ox^t+b_o)，C^t＝C^t-1e f^t+i^te a^t，

其中 f^t＝σ(W_fh^t-1+U_fx^t+b_f)，i^t＝σ(W_ih^t-1+U_ix^t+b_i)，a^t＝tanh(W_ah^t-1+U_ax^t+b_a)。

本发明一种基于端对端模型的电信客户流失概率预测方法及系统有益效果在于：应用大数据与人工智能技术对电信行业的客户流失概率进行预测，并将基于集成学习的方法应用在概率预测上，具有较好的预测准确率，降低了人工判断的成本和时间，为企业维系客户提供重要参考数据。

附图说明

图1为本发明一种基于端对端模型的电信客户流失概率预测方法的流程示意图；

图2为本发明一种基于端对端模型的电信客户流失概率预测方法的执行示意图；

图3为本发明一种基于端对端模型的电信客户流失概率预测方法的框架示意图；

图4为本发明一种基于端对端模型的电信客户流失概率预测方法的数据收集具体流程示意图；

图5为本发明一种基于端对端模型的电信客户流失概率预测方法的预测子模型训练具体流程示意图；

图6为本发明一种基于端对端模型的电信客户流失概率预测方法的融合模型训练具体流程示意图；

图7为本发明一种基于端对端模型的电信客户流失概率预测方法的客户流失概率预测具体流程示意图；

图8为本发明一种基于端对端模型的电信客户流失概率预测方法的数据预处理示意图；

图9为本发明一种基于端对端模型的电信客户流失概率预测方法中预测子模型和融合模型在测试集上的PR曲线图；

图10为本发明一种基于端对端模型的电信客户流失概率预测方法中融合模型在测试集上的效果示意图；

图11为本发明一种基于端对端模型的电信客户流失概率预测系统的模块连接示意图；

图12为本发明一种基于端对端模型的电信客户流失概率预测方法及系统中的模型初始化设置的子模型的公式示意图。

具体实施方式

以下是本发明的具体实施例，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的模块和步骤的相对布置和步骤不限制本发明的范围。

同时，应当明白，为了便于描述，附图中的流程并不仅仅是单独进行，而是多个步骤相互交叉进行。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论，但在适当情况下，技术、方法及系统应当被视为授权说明书的一部分。

伴随着数据挖掘技术在各个行业的应用，大量的数据已经成为企业的财富，且在不断的为企业提供有用的信息。在目前4G技术普及的环境下，电信行业客户每天都会产生大量的数据，包括语音数据，流量数据等。从海量的数据中提取有用的特征，分析客户行为特征，能够对客户未来的行为进行预估，从而实现客户流失概率的准确预测。

实施例一

如图1所示，仅为本发明的其中一个实施例，本发明提供一种基于端对端模型的电信客户流失概率预测方法，该方法包括以下步骤：

S1：获取电信行业客户数据，并对获取的数据进行标记；

通过数据收集模块合法合规地获取电信行业客户数据，并对获取的数据进行标记，按照需求将客户标记为流失或非流失，同时根据入网时间将客户划分为新用户和老用户。

对数据进行预处理，处理异常值和缺失值，将字符串数据转化为浮点型方便运算，对数据进行标准化处理，在新用户和老用户中划分训练集和测试集，训练客户概率预测子模型：DeepFM，ResNet以及LSTM模型。

采用Stacking融合策略将子模型的结果进行融合，训练融合模型，得到最终的客户流失概率预测模型。

S4：获取客户流失的概率值。

将客户信息输入至得到的最终的客户流失概率预测模型中，通过客户流失预测模块最终获取客户流失的概率值。

本发明一种基于端对端模型的电信客户流失概率预测方法应用大数据与人工智能技术对电信行业的客户流失概率进行预测，并将基于集成学习的方法应用在概率预测上，具有较好的预测准确率，降低了人工判断的成本和时间，为企业维系客户提供重要参考数据。

实施例二

如图2至10以及图12所示，仅为本发明的其中一个实施例，本发明一种基于端对端模型的电信客户流失概率预测方法，该方法步骤具体还有以下设计：

首先，参照图4，步骤S1具体包括：

在这里，通过Hive将位于服务器上的客户数据采集到本地系统，并根据客户的ref_id哈希分桶分块存储；采集的数据类别中包括月数据，日数据和静态数据。月数据包括：号码唯一标识，本月话费，账户余额，arpu值，语音使用量，流量使用量，最近30天无语音天数，最近30天无流量天数，主叫分钟数，被叫分钟数，本月共较费金额，本月总缴费次数，累计充值次数，累计充值金额(单位：分)，使用排行前10的应用，是否超套。静态数据包括：号码唯一标识，入网日期，出生日期，性别(1-男,0-女)，产品编码，首充标识，首充费用，省份编码。日数据包括：号码唯一标识，日期，主叫总次数，主叫总号码次数，主叫总时长(秒)，发短信总次数，总流量(字节)，流量使用总时长(秒)，经历基站总数，被叫总次数，被叫号码总数，被叫总时长，经历基站总数。

按照定义，某个月语音数据和流量数据同时为0且上个月语音数据或流量数据不为0的客户为已经流失客户，且定义该客户为上个月流失。依据此定义，对存到本地系统的所有用户进行标定，确定流失用户和非流失用户。

S13：根据入网时间区分新用户和老用户。

根据入网时间区分新用户和老用户，将入网时间少于等于两个月的用户定义为新用户，大于两个月的用户定义为老用户。

然后，参照图5，步骤S2具体包括：

参照图8，对数据进行预处理，依据3σ准则将异常值剔除，将含有缺失值的样本剔除，对于连续性属性，采用如下两种标准化方式进行处理：x＝(x-x(min)) /(x(max)-x(min))或者x＝(x-x(mean))/y，其中x(min)，x(max)，x(mean)，y 分别表示数据的最小值，最大值，平均值和标准差。对于离散性变量，采用one-hot 进行编码。

对数据集进行划分，从月数据中根据流失标签定义方法抽取流失用户为数据集正样本，非流失用户为数据集负样本。在所有数据中划分为训练集和测试集，保证训练集和测试集的正负样本比例与实际样本分布相同。

预测子模型初始化，设置子模型包括深度因子分解机模型(DeepFM)，深度残差网络(ResNet)以及长短时间记忆网络(LSTM)，DeepFM用于提取数据中的交叉特征，即多个属性组合生成的特征，ResNet和LSTM用于提取数据中的长短时序特征，具体表达如下：

DeepFM子模型：

其中

ResNet子模型：

LSTM子模型：

其中h^t＝o^te tanh(C^t)，

其中o^t＝σ(W_oh^t-1+U_ox^t+b_o)，C^t＝C^t-1e f^t+i^te a^t，

其中f_t＝σ(W_fh^t-1+U_fx^t+b_f)，i^t＝σ(W_ih^t-1+U_ix^t+b_i)，a^t＝tanh(W_ah^t-1+U_ax^t+b_a)。

通过最小化预测值与实际值的误差来更新模型参数，得到最终的子预测模型，通过预测子模型，可以得到初始的客户流失概率预测值。

设置损失函数来处理数据集的非平衡分布，在损失函数部分增加调节系数用于控制正负样本下模型的损失，具体表达如下：

当正负样本预测结果越准确，也就是y越接近1或0，那么损失将会变得很小，而对于不确定的样本，损失会增大，也就是说模型更加关注难以分类的样本。参数α可以控制正负样本的贡献度。

还有，参照图6，步骤S3具体包括：

S31：基于Stacking模型融合策略，设置融合模型模型算法为逻辑回归算法；基于Stacking模型融合策略，设置融合模型模型算法为逻辑回归算法，模型具体定义如下：

S33：最优的融合模型参数，生成最终的客户流失概率模型。

在这里，通过极大似然估计来最优的融合模型参数，生成最终的客户流失概率模型。

最后，参照图7，步骤S4具体包括：

用于设定评价指标，定义正确率和召回率为分类器最终的评价指标，具体表达如下：P＝TP/(TP+FP)，R＝TP/(TP+FN)，其中P表示正确率，R表示召回率。TP表示预测为正样本，且实际也为正样本的样本数，FP表示预测为正样本，但实际为负样本的样本数，FN表示预测为负样本，但实际为正样本的样本数。

实施例三

如图11、12所示，本发明中另外还提供一种基于端对端模型的电信客户流失概率预测系统，该系统包括：

数据收集模块；

子模型训练模块；

模型融合模块；

客户流失预测模块；

数据收集模块包括数据采集单元、数据标定单元以及新老客户区分单元。

子模型训练模块包括数据预处理单元、数据集划分单元、模型初始化模块、非平衡样本处理单元以及子模型训练单元。

模型融合模块包括融合模型初始化单元、融合模型初始化单元以及融合模型训练单元。

模型融合模块包括测试集数据预处理模块、模型性能评估单元以及客户流失概率输出单元。

本发明一种基于端对端模型的电信客户流失概率预测系统中，数据采集单元采集数据包括月数据、日数据和静态数据，月数据包括：号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10的应用以及是否超套；静态数据包括：号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码；日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数。

还有，模型初始化模块设置的子模型包括：

深度因子分解机模型DeepFM子模型：

其中

深度残差网络ResNet子模型：

以及长短时间记忆网络LSTM子模型：

其中x^t＝o^te tanh(C^t)，

其中o^t＝σ(W_oh^t-1+U_ox^t+b_o)，C^t＝C^t-1e f^t+i^te a^t，

其中 f^t＝σ(W_fh^t-1+U_fx^t+b_f)，i^t＝σ(W_ih^t-1+U_ix^t+b_i)，a^t＝tanh(W_ah^t-1+U_ax^t+b_a) 。

本发明一种基于端对端模型的电信客户流失概率预测方法及系统应用大数据与人工智能技术对电信行业的客户流失概率进行预测，并将基于集成学习的方法应用在概率预测上，具有较好的预测准确率，降低了人工判断的成本和时间，为企业维系客户提供重要参考数据。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围，本发明所属技术领域的技术人员可以对所描述的具体实施例来做出各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的方向或者超越所附权利要求书所定义的范围。本领域的技术人员应该理解，凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于端对端模型的电信客户流失概率预测方法，其特征在于，包括以下步骤：

S1：获取电信行业客户数据，并对获取的数据进行标记；

S4：获取客户流失的概率值。

2.根据权利要求1所述的一种基于端对端模型的电信客户流失概率预测方法，其特征在于，步骤S1具体包括：

S11：通过Hive将位于服务器上的客户数据采集到本地系统，并根据客户的ref_id哈希分桶分块存储；

S13：根据入网时间区分新用户和老用户。

3.根据权利要求1所述的一种基于端对端模型的电信客户流失概率预测方法，其特征在于：

执行步骤S1时，获取的数据类别包括月数据、日数据和静态数据，月数据包括：号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10 的应用以及是否超套；静态数据包括：号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码；日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数。

4.根据权利要求1所述的一种基于端对端模型的电信客户流失概率预测方法，其特征在于，步骤S2具体包括：

S21：对数据进行预处理，依据准则将异常值剔除，将含有缺失值的样本剔除；

5.根据权利要求4所述的一种基于端对端模型的电信客户流失概率预测方法，其特征在于：

执行步骤S23时，设置子模型包括：

深度因子分解机模型DeepFM子模型；

深度残差网络ResNet子模型；

以及长短时间记忆网络LSTM子模型。

6.根据权利要求5所述的一种基于端对端模型的电信客户流失概率预测方法，其特征在于，步骤S3具体包括：

S32：模型输入参数为三个子模型预测的客户流失概率预测值，通过优化求解最优的参数，得到最终融合后的客户流失概率；

S33：最优的融合模型参数，生成最终的客户流失概率模型。

7.根据权利要求1所述的一种基于端对端模型的电信客户流失概率预测方法，其特征在于，步骤S4具体包括：

8.一种基于端对端模型的电信客户流失概率预测系统，其特征在于，包括：

数据收集模块；

子模型训练模块；

模型融合模块；

客户流失预测模块；

9.根据权利要求8所述的一种基于端对端模型的电信客户流失概率预测系统，其特征在于：

数据收集模块包括数据采集单元、数据标定单元以及新老客户区分单元；

子模型训练模块包括数据预处理单元、数据集划分单元、模型初始化模块、非平衡样本处理单元以及子模型训练单元；

模型融合模块包括融合模型初始化单元、融合模型初始化单元以及融合模型训练单元；

10.根据权利要求9所述的一种基于端对端模型的电信客户流失概率预测系统，其特征在于：

数据采集单元采集数据包括月数据、日数据和静态数据，月数据包括：号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10 的应用以及是否超套；静态数据包括：号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码；日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数；

模型初始化模块设置的子模型包括：

深度因子分解机模型DeepFM子模型；

深度残差网络ResNet子模型；

以及长短时间记忆网络LSTM子模型。