CN111538873A - 一种基于端对端模型的电信客户流失概率预测方法及系统 - Google Patents

一种基于端对端模型的电信客户流失概率预测方法及系统 Download PDF

Info

Publication number
CN111538873A
CN111538873A CN201911335080.5A CN201911335080A CN111538873A CN 111538873 A CN111538873 A CN 111538873A CN 201911335080 A CN201911335080 A CN 201911335080A CN 111538873 A CN111538873 A CN 111538873A
Authority
CN
China
Prior art keywords
data
model
customer
probability prediction
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911335080.5A
Other languages
English (en)
Inventor
刘勇
赵锡成
马新强
周雪
杨建党
钟保全
张可鑫
沈立凯
张少华
杨曦
徐晋鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
China United Network Communications Corp Ltd
Original Assignee
Zhejiang University ZJU
China United Network Communications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, China United Network Communications Corp Ltd filed Critical Zhejiang University ZJU
Priority to CN201911335080.5A priority Critical patent/CN111538873A/zh
Publication of CN111538873A publication Critical patent/CN111538873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/60Business processes related to postal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于端对端模型的电信客户流失概率预测方法及系统,涉及数据安全技术领域,其中一种基于端对端模型的电信客户流失概率预测方法,包括以下步骤:S1:获取电信客户数据,对获取的数据标记;S2:对数据预处理,处理异常值和缺失值,对数据标准化处理,训练客户概率预测子模型;S3:将子模型的结果融合,训练融合模型,得到客户流失概率预测模型;S4:获取客户流失概率值。本发明一种基于端对端模型的电信客户流失概率预测方法及系统应用大数据与人工智能技术对电信行业的客户流失概率预测,将基于集成学习的方法应用在概率预测上,具有较好的预测准确率,降低了人工判断的成本和时间,为企业维系客户提供重要参考数据。

Description

一种基于端对端模型的电信客户流失概率预测方法及系统
技术领域
本发明涉及数据预测技术领域,
尤其是,本发明涉及一种基于端对端模型的电信客户流失概率预测方法及系统。
背景技术
近年来随着移动电话的普及以及电信行业的不断发展,整个行业也逐渐趋于饱和。在这种环境下,增加新的客户也变得越来月困难,因此各大电信公司除了推出更加吸引人的业务之外,更重要的是从已有的用户中及时发现即将要流失的用户,也就是要保证现有客户的稳定性。而做到这一点,需要企业对于客户的行为有明确的判断和认识,而实际中每个用户都有自己的行为习惯,且差异较大,分析起来难度较大,难以准确识别出即将流失的客户,如何快速定位有流失趋势的客户成为了企业所关心和急需解决的重要问题。
针对这种现象,需要一套行之有效的方法和策略来实现客户流失概率的预测,及时将即将流失的客户信息提供给企业,随后企业制定相关策略来吸引客户继续使用相关产品,减少企业的损失。
所以,如何设计一种电信客户流失概率预测方法或者系统,成为我们当前急需要解决的问题。
发明内容
本发明的目的在于提供一种应用大数据与人工智能技术对电信行业的客户流失概率进行预测,并将基于集成学习的方法应用在概率预测上,具有较好的预测准确率,降低了人工判断的成本和时间,为企业维系客户提供重要参考数据的电信客户流失概率预测方法。
为达到上述目的,本发明采用如下技术方案得以实现的:
一种基于端对端模型的电信客户流失概率预测方法,该预测方法包括以下步骤:
S1:获取电信行业客户数据,并对获取的数据进行标记;
S2:对数据进行预处理,处理异常值和缺失值,对数据进行标准化处理,训练客户概率预测子模型;
S3:将子模型的结果进行融合,训练融合模型,得到最终的客户流失概率预测模型;
S4:获取客户流失的概率值。
作为本发明的优选,步骤S1具体包括:
S11:通过Hive将位于服务器上的客户数据采集到本地系统,并根据客户的 ref_id哈希分桶分块存储;
S12:对存到本地系统的所有用户进行标定,确定流失用户和非流失用户;
S13:根据入网时间区分新用户和老用户。
作为本发明的优选,执行步骤S1时,获取的数据类别包括月数据、日数据和静态数据。月数据包括:号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10的应用以及是否超套;静态数据包括:号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码;日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数。
作为本发明的优选,步骤S2具体包括:
S21:对数据进行预处理,依据3σ准则将异常值剔除,将含有缺失值的样本剔除;
S22:对数据集进行划分,在所有数据中划分为训练集和测试集;
S23:预测子模型初始化,设置子模型,得到最终的子预测模型,通过预测子模型,得到初始的客户流失概率预测值;
S24:设置损失函数来处理数据集的非平衡分布,在损失函数部分增加调节系数用于控制正负样本下模型的损失;
S25:训练预测子模型,将训练数据集按照5折交叉验证进行划分,最终训练集数据的评估结果为5次训练的平均值。
作为本发明的优选,执行步骤S23时,设置子模型包括:
深度因子分解机模型DeepFM子模型:
Figure RE-RE-GDA0002556874350000031
其中
Figure RE-RE-GDA0002556874350000032
深度残差网络ResNet子模型:
Figure RE-RE-GDA0002556874350000033
以及长短时间记忆网络LSTM子模型:
Figure RE-RE-GDA0002556874350000034
其中ht=ot e tanh(Ct),
其中ot=σ(Woht-1+Uoxt+bo),Ct=Ct-1e ft+ite at
其中: ft=σ(Wfht-1+Ufxt+bf),it=σ(Wiht-1+Uixt+bi),at=tanh(Waht-1+Uaxt+ba)。
作为本发明的优选,步骤S3具体包括:
S31:基于Stacking模型融合策略,设置融合模型模型算法为逻辑回归算法;
S32:模型输入参数为三个子模型预测的客户流失概率预测值,通过优化求解最优的参数θ,得到最终融合后的客户流失概率;
S33:最优的融合模型参数,生成最终的客户流失概率模型。
作为本发明的优选,步骤S4具体包括:
S41:将所述测试集数据进行预处理,按照模型设计的模型接口格式,生成能够用于模型输入的数据集;
S42:用于设定评价指标,定义正确率和召回率为分类器最终的评价指标;
S43:基于所述模型和数据,获得最终的客户流失概率预测结果。
另一方面,本发明中另外还提供一种基于端对端模型的电信客户流失概率预测系统,该系统包括:
数据收集模块;
子模型训练模块;
模型融合模块;
客户流失预测模块;
数据收集模块获取电信行业客户数据,并对获取的数据进行标记,子模型训练模块对数据进行预处理,处理异常值和缺失值,对数据进行标准化处理,训练客户概率预测子模型,模型融合模块将子模型的结果进行融合,训练融合模型,得到最终的客户流失概率预测模型,客户流失预测模块获取客户流失的概率值。
作为本发明的优选,本发明一种基于端对端模型的电信客户流失概率预测系统中,数据收集模块包括数据采集单元、数据标定单元以及新老客户区分单元。
作为本发明的优选,本发明一种基于端对端模型的电信客户流失概率预测系统中,子模型训练模块包括数据预处理单元、数据集划分单元、模型初始化模块、非平衡样本处理单元以及子模型训练单元。
作为本发明的优选,本发明一种基于端对端模型的电信客户流失概率预测系统中,模型融合模块包括融合模型初始化单元、融合模型初始化单元以及融合模型训练单元。
作为本发明的优选,本发明一种基于端对端模型的电信客户流失概率预测系统中,模型融合模块包括测试集数据预处理模块、模型性能评估单元以及客户流失概率输出单元。
作为本发明的优选,本发明一种基于端对端模型的电信客户流失概率预测系统中,数据采集单元采集数据包括月数据、日数据和静态数据,月数据包括:号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近 30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10的应用以及是否超套;静态数据包括:号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码;日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数。
作为本发明的优选,本发明一种基于端对端模型的电信客户流失概率预测系统中,模型初始化模块设置的子模型包括:
深度因子分解机模型DeepFM子模型:
Figure RE-RE-GDA0002556874350000051
其中
Figure RE-RE-GDA0002556874350000052
深度残差网络ResNet子模型:
Figure RE-RE-GDA0002556874350000053
以及长短时间记忆网络LSTM子模型:
Figure RE-RE-GDA0002556874350000054
其中ht=ote tanh(Ct),
其中ot=σ(Woht-1+Uoxt+bo),Ct=Ct-1e ft+ite at
其中 ft=σ(Wfht-1+Ufxt+bf),it=σ(Wiht-1+Uixt+bi),at=tanh(Waht-1+Uaxt+ba)。
本发明一种基于端对端模型的电信客户流失概率预测方法及系统有益效果在于:应用大数据与人工智能技术对电信行业的客户流失概率进行预测,并将基于集成学习的方法应用在概率预测上,具有较好的预测准确率,降低了人工判断的成本和时间,为企业维系客户提供重要参考数据。
附图说明
图1为本发明一种基于端对端模型的电信客户流失概率预测方法的流程示意图;
图2为本发明一种基于端对端模型的电信客户流失概率预测方法的执行示意图;
图3为本发明一种基于端对端模型的电信客户流失概率预测方法的框架示意图;
图4为本发明一种基于端对端模型的电信客户流失概率预测方法的数据收集具体流程示意图;
图5为本发明一种基于端对端模型的电信客户流失概率预测方法的预测子模型训练具体流程示意图;
图6为本发明一种基于端对端模型的电信客户流失概率预测方法的融合模型训练具体流程示意图;
图7为本发明一种基于端对端模型的电信客户流失概率预测方法的客户流失概率预测具体流程示意图;
图8为本发明一种基于端对端模型的电信客户流失概率预测方法的数据预处理示意图;
图9为本发明一种基于端对端模型的电信客户流失概率预测方法中预测子模型和融合模型在测试集上的PR曲线图;
图10为本发明一种基于端对端模型的电信客户流失概率预测方法中融合模型在测试集上的效果示意图;
图11为本发明一种基于端对端模型的电信客户流失概率预测系统的模块连接示意图;
图12为本发明一种基于端对端模型的电信客户流失概率预测方法及系统中的模型初始化设置的子模型的公式示意图。
具体实施方式
以下是本发明的具体实施例,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的模块和步骤的相对布置和步骤不限制本发明的范围。
同时,应当明白,为了便于描述,附图中的流程并不仅仅是单独进行,而是多个步骤相互交叉进行。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论,但在适当情况下,技术、方法及系统应当被视为授权说明书的一部分。
伴随着数据挖掘技术在各个行业的应用,大量的数据已经成为企业的财富,且在不断的为企业提供有用的信息。在目前4G技术普及的环境下,电信行业客户每天都会产生大量的数据,包括语音数据,流量数据等。从海量的数据中提取有用的特征,分析客户行为特征,能够对客户未来的行为进行预估,从而实现客户流失概率的准确预测。
实施例一
如图1所示,仅为本发明的其中一个实施例,本发明提供一种基于端对端模型的电信客户流失概率预测方法,该方法包括以下步骤:
S1:获取电信行业客户数据,并对获取的数据进行标记;
通过数据收集模块合法合规地获取电信行业客户数据,并对获取的数据进行标记,按照需求将客户标记为流失或非流失,同时根据入网时间将客户划分为新用户和老用户。
S2:对数据进行预处理,处理异常值和缺失值,对数据进行标准化处理,训练客户概率预测子模型;
对数据进行预处理,处理异常值和缺失值,将字符串数据转化为浮点型方便运算,对数据进行标准化处理,在新用户和老用户中划分训练集和测试集,训练客户概率预测子模型:DeepFM,ResNet以及LSTM模型。
S3:将子模型的结果进行融合,训练融合模型,得到最终的客户流失概率预测模型;
采用Stacking融合策略将子模型的结果进行融合,训练融合模型,得到最终的客户流失概率预测模型。
S4:获取客户流失的概率值。
将客户信息输入至得到的最终的客户流失概率预测模型中,通过客户流失预测模块最终获取客户流失的概率值。
本发明一种基于端对端模型的电信客户流失概率预测方法应用大数据与人工智能技术对电信行业的客户流失概率进行预测,并将基于集成学习的方法应用在概率预测上,具有较好的预测准确率,降低了人工判断的成本和时间,为企业维系客户提供重要参考数据。
实施例二
如图2至10以及图12所示,仅为本发明的其中一个实施例,本发明一种基于端对端模型的电信客户流失概率预测方法,该方法步骤具体还有以下设计:
首先,参照图4,步骤S1具体包括:
S11:通过Hive将位于服务器上的客户数据采集到本地系统,并根据客户的 ref_id哈希分桶分块存储;
在这里,通过Hive将位于服务器上的客户数据采集到本地系统,并根据客户的ref_id哈希分桶分块存储;采集的数据类别中包括月数据,日数据和静态数据。月数据包括:号码唯一标识,本月话费,账户余额,arpu值,语音使用量,流量使用量,最近30天无语音天数,最近30天无流量天数,主叫分钟数,被叫分钟数,本月共较费金额,本月总缴费次数,累计充值次数,累计充值金额(单位:分),使用排行前10的应用,是否超套。静态数据包括:号码唯一标识,入网日期,出生日期,性别(1-男,0-女),产品编码,首充标识,首充费用,省份编码。日数据包括:号码唯一标识,日期,主叫总次数,主叫总号码次数,主叫总时长(秒),发短信总次数,总流量(字节),流量使用总时长(秒),经历基站总数,被叫总次数,被叫号码总数,被叫总时长,经历基站总数。
S12:对存到本地系统的所有用户进行标定,确定流失用户和非流失用户;
按照定义,某个月语音数据和流量数据同时为0且上个月语音数据或流量数据不为0的客户为已经流失客户,且定义该客户为上个月流失。依据此定义,对存到本地系统的所有用户进行标定,确定流失用户和非流失用户。
S13:根据入网时间区分新用户和老用户。
根据入网时间区分新用户和老用户,将入网时间少于等于两个月的用户定义为新用户,大于两个月的用户定义为老用户。
然后,参照图5,步骤S2具体包括:
S21:对数据进行预处理,依据3σ准则将异常值剔除,将含有缺失值的样本剔除;
参照图8,对数据进行预处理,依据3σ准则将异常值剔除,将含有缺失值的样本剔除,对于连续性属性,采用如下两种标准化方式进行处理:x=(x-x(min)) /(x(max)-x(min))或者x=(x-x(mean))/y,其中x(min),x(max),x(mean),y 分别表示数据的最小值,最大值,平均值和标准差。对于离散性变量,采用one-hot 进行编码。
S22:对数据集进行划分,在所有数据中划分为训练集和测试集;
对数据集进行划分,从月数据中根据流失标签定义方法抽取流失用户为数据集正样本,非流失用户为数据集负样本。在所有数据中划分为训练集和测试集,保证训练集和测试集的正负样本比例与实际样本分布相同。
S23:预测子模型初始化,设置子模型,得到最终的子预测模型,通过预测子模型,得到初始的客户流失概率预测值;
预测子模型初始化,设置子模型包括深度因子分解机模型(DeepFM),深度残差网络(ResNet)以及长短时间记忆网络(LSTM),DeepFM用于提取数据中的交叉特征,即多个属性组合生成的特征,ResNet和LSTM用于提取数据中的长短时序特征,具体表达如下:
DeepFM子模型:
Figure RE-RE-GDA0002556874350000091
其中
Figure RE-RE-GDA0002556874350000092
ResNet子模型:
Figure RE-RE-GDA0002556874350000093
LSTM子模型:
Figure RE-RE-GDA0002556874350000094
其中ht=ote tanh(Ct),
其中ot=σ(Woht-1+Uoxt+bo),Ct=Ct-1e ft+ite at
其中ft=σ(Wfht-1+Ufxt+bf),it=σ(Wiht-1+Uixt+bi),at=tanh(Waht-1+Uaxt+ba)。
通过最小化预测值与实际值的误差来更新模型参数,得到最终的子预测模型,通过预测子模型,可以得到初始的客户流失概率预测值。
S24:设置损失函数来处理数据集的非平衡分布,在损失函数部分增加调节系数用于控制正负样本下模型的损失;
设置损失函数来处理数据集的非平衡分布,在损失函数部分增加调节系数用于控制正负样本下模型的损失,具体表达如下:
Figure RE-RE-GDA0002556874350000101
当正负样本预测结果越准确,也就是y越接近1或0,那么损失将会变得很小,而对于不确定的样本,损失会增大,也就是说模型更加关注难以分类的样本。参数α可以控制正负样本的贡献度。
S25:训练预测子模型,将训练数据集按照5折交叉验证进行划分,最终训练集数据的评估结果为5次训练的平均值。
还有,参照图6,步骤S3具体包括:
S31:基于Stacking模型融合策略,设置融合模型模型算法为逻辑回归算法;基于Stacking模型融合策略,设置融合模型模型算法为逻辑回归算法,模型具体定义如下:
Figure RE-RE-GDA0002556874350000102
S32:模型输入参数为三个子模型预测的客户流失概率预测值,通过优化求解最优的参数θ,得到最终融合后的客户流失概率;
S33:最优的融合模型参数,生成最终的客户流失概率模型。
在这里,通过极大似然估计来最优的融合模型参数,生成最终的客户流失概率模型。
最后,参照图7,步骤S4具体包括:
S41:将所述测试集数据进行预处理,按照模型设计的模型接口格式,生成能够用于模型输入的数据集;
S42:用于设定评价指标,定义正确率和召回率为分类器最终的评价指标;
用于设定评价指标,定义正确率和召回率为分类器最终的评价指标,具体表达如下:P=TP/(TP+FP),R=TP/(TP+FN),其中P表示正确率,R表示召回率。TP表示预测为正样本,且实际也为正样本的样本数,FP表示预测为正样本,但实际为负样本的样本数,FN表示预测为负样本,但实际为正样本的样本数。
S43:基于所述模型和数据,获得最终的客户流失概率预测结果。
实施例三
如图11、12所示,本发明中另外还提供一种基于端对端模型的电信客户流失概率预测系统,该系统包括:
数据收集模块;
子模型训练模块;
模型融合模块;
客户流失预测模块;
数据收集模块获取电信行业客户数据,并对获取的数据进行标记,子模型训练模块对数据进行预处理,处理异常值和缺失值,对数据进行标准化处理,训练客户概率预测子模型,模型融合模块将子模型的结果进行融合,训练融合模型,得到最终的客户流失概率预测模型,客户流失预测模块获取客户流失的概率值。
数据收集模块包括数据采集单元、数据标定单元以及新老客户区分单元。
子模型训练模块包括数据预处理单元、数据集划分单元、模型初始化模块、非平衡样本处理单元以及子模型训练单元。
模型融合模块包括融合模型初始化单元、融合模型初始化单元以及融合模型训练单元。
模型融合模块包括测试集数据预处理模块、模型性能评估单元以及客户流失概率输出单元。
本发明一种基于端对端模型的电信客户流失概率预测系统中,数据采集单元采集数据包括月数据、日数据和静态数据,月数据包括:号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10的应用以及是否超套;静态数据包括:号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码;日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数。
还有,模型初始化模块设置的子模型包括:
深度因子分解机模型DeepFM子模型:
Figure RE-RE-GDA0002556874350000121
其中
Figure RE-RE-GDA0002556874350000122
深度残差网络ResNet子模型:
Figure RE-RE-GDA0002556874350000123
以及长短时间记忆网络LSTM子模型:
Figure RE-RE-GDA0002556874350000124
其中xt=ote tanh(Ct),
其中ot=σ(Woht-1+Uoxt+bo),Ct=Ct-1e ft+ite at
其中 ft=σ(Wfht-1+Ufxt+bf),it=σ(Wiht-1+Uixt+bi),at=tanh(Waht-1+Uaxt+ba) 。
本发明一种基于端对端模型的电信客户流失概率预测方法及系统应用大数据与人工智能技术对电信行业的客户流失概率进行预测,并将基于集成学习的方法应用在概率预测上,具有较好的预测准确率,降低了人工判断的成本和时间,为企业维系客户提供重要参考数据。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围,本发明所属技术领域的技术人员可以对所描述的具体实施例来做出各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的方向或者超越所附权利要求书所定义的范围。本领域的技术人员应该理解,凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。

Claims (10)

1.一种基于端对端模型的电信客户流失概率预测方法,其特征在于,包括以下步骤:
S1:获取电信行业客户数据,并对获取的数据进行标记;
S2:对数据进行预处理,处理异常值和缺失值,对数据进行标准化处理,训练客户概率预测子模型;
S3:将子模型的结果进行融合,训练融合模型,得到最终的客户流失概率预测模型;
S4:获取客户流失的概率值。
2.根据权利要求1所述的一种基于端对端模型的电信客户流失概率预测方法,其特征在于,步骤S1具体包括:
S11:通过Hive将位于服务器上的客户数据采集到本地系统,并根据客户的ref_id哈希分桶分块存储;
S12:对存到本地系统的所有用户进行标定,确定流失用户和非流失用户;
S13:根据入网时间区分新用户和老用户。
3.根据权利要求1所述的一种基于端对端模型的电信客户流失概率预测方法,其特征在于:
执行步骤S1时,获取的数据类别包括月数据、日数据和静态数据,月数据包括:号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10 的应用以及是否超套;静态数据包括:号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码;日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数。
4.根据权利要求1所述的一种基于端对端模型的电信客户流失概率预测方法,其特征在于,步骤S2具体包括:
S21:对数据进行预处理,依据准则将异常值剔除,将含有缺失值的样本剔除;
S22:对数据集进行划分,在所有数据中划分为训练集和测试集;
S23:预测子模型初始化,设置子模型,得到最终的子预测模型,通过预测子模型,得到初始的客户流失概率预测值;
S24:设置损失函数来处理数据集的非平衡分布,在损失函数部分增加调节系数用于控制正负样本下模型的损失;
S25:训练预测子模型,将训练数据集按照5折交叉验证进行划分,最终训练集数据的评估结果为5次训练的平均值。
5.根据权利要求4所述的一种基于端对端模型的电信客户流失概率预测方法,其特征在于:
执行步骤S23时,设置子模型包括:
深度因子分解机模型DeepFM子模型;
深度残差网络ResNet子模型;
以及长短时间记忆网络LSTM子模型。
6.根据权利要求5所述的一种基于端对端模型的电信客户流失概率预测方法,其特征在于,步骤S3具体包括:
S31:基于Stacking模型融合策略,设置融合模型模型算法为逻辑回归算法;
S32:模型输入参数为三个子模型预测的客户流失概率预测值,通过优化求解最优的参数,得到最终融合后的客户流失概率;
S33:最优的融合模型参数,生成最终的客户流失概率模型。
7.根据权利要求1所述的一种基于端对端模型的电信客户流失概率预测方法,其特征在于,步骤S4具体包括:
S41:将所述测试集数据进行预处理,按照模型设计的模型接口格式,生成能够用于模型输入的数据集;
S42:用于设定评价指标,定义正确率和召回率为分类器最终的评价指标;
S43:基于所述模型和数据,获得最终的客户流失概率预测结果。
8.一种基于端对端模型的电信客户流失概率预测系统,其特征在于,包括:
数据收集模块;
子模型训练模块;
模型融合模块;
客户流失预测模块;
数据收集模块获取电信行业客户数据,并对获取的数据进行标记,子模型训练模块对数据进行预处理,处理异常值和缺失值,对数据进行标准化处理,训练客户概率预测子模型,模型融合模块将子模型的结果进行融合,训练融合模型,得到最终的客户流失概率预测模型,客户流失预测模块获取客户流失的概率值。
9.根据权利要求8所述的一种基于端对端模型的电信客户流失概率预测系统,其特征在于:
数据收集模块包括数据采集单元、数据标定单元以及新老客户区分单元;
子模型训练模块包括数据预处理单元、数据集划分单元、模型初始化模块、非平衡样本处理单元以及子模型训练单元;
模型融合模块包括融合模型初始化单元、融合模型初始化单元以及融合模型训练单元;
模型融合模块包括测试集数据预处理模块、模型性能评估单元以及客户流失概率输出单元。
10.根据权利要求9所述的一种基于端对端模型的电信客户流失概率预测系统,其特征在于:
数据采集单元采集数据包括月数据、日数据和静态数据,月数据包括:号码唯一标识、本月话费、账户余额、arpu值、语音使用量、流量使用量、最近30天无语音天数、最近30天无流量天数、主叫分钟数、被叫分钟数、本月共较费金额、本月总缴费次数、累计充值次数、累计充值金额、使用排行前10 的应用以及是否超套;静态数据包括:号码唯一标识、入网日期、出生日期、性别、产品编码、首充标识、首充费用以及省份编码;日数据包括、号码唯一标识、日期、主叫总次数、主叫总号码次数、主叫总时长、发短信总次数、总流量、流量使用总时长、经历基站总数、被叫总次数、被叫号码总数、被叫总时长以及经历基站总数;
模型初始化模块设置的子模型包括:
深度因子分解机模型DeepFM子模型;
深度残差网络ResNet子模型;
以及长短时间记忆网络LSTM子模型。
CN201911335080.5A 2019-12-23 2019-12-23 一种基于端对端模型的电信客户流失概率预测方法及系统 Pending CN111538873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911335080.5A CN111538873A (zh) 2019-12-23 2019-12-23 一种基于端对端模型的电信客户流失概率预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911335080.5A CN111538873A (zh) 2019-12-23 2019-12-23 一种基于端对端模型的电信客户流失概率预测方法及系统

Publications (1)

Publication Number Publication Date
CN111538873A true CN111538873A (zh) 2020-08-14

Family

ID=71974763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911335080.5A Pending CN111538873A (zh) 2019-12-23 2019-12-23 一种基于端对端模型的电信客户流失概率预测方法及系统

Country Status (1)

Country Link
CN (1) CN111538873A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488163A (zh) * 2020-11-17 2021-03-12 中国平安财产保险股份有限公司 一种异常账号的识别方法、装置、计算机设备及存储介质
CN112836877A (zh) * 2021-02-04 2021-05-25 广西蜂鸟汽车科技有限公司 一种改进多层感知机的电信客户流失预测方法及系统
CN113033909A (zh) * 2021-04-08 2021-06-25 中国移动通信集团陕西有限公司 携转用户分析方法、装置、设备及计算机存储介质
CN113706187A (zh) * 2021-07-13 2021-11-26 杭州电子科技大学 一种基于时空图卷积的电信用户流失行为预测方法及系统
CN113724010A (zh) * 2021-09-01 2021-11-30 吉林亿联银行股份有限公司 客户流失预测方法及装置
TWI754476B (zh) * 2020-11-30 2022-02-01 中華電信股份有限公司 基於集成式學習之障礙診斷系統、方法及電腦可讀媒介
CN114418024A (zh) * 2022-01-26 2022-04-29 深圳前海微众银行股份有限公司 学历预测方法、系统、终端设备及存储介质
CN115147155A (zh) * 2022-07-05 2022-10-04 西南交通大学 一种基于集成学习的铁路货运客户流失预测方法
WO2023115876A1 (zh) * 2021-12-24 2023-06-29 深圳前海微众银行股份有限公司 一种信息处理方法及装置、存储介质
CN114418024B (zh) * 2022-01-26 2024-05-31 深圳前海微众银行股份有限公司 学历预测方法、系统、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635118A (zh) * 2019-01-10 2019-04-16 博拉网络股份有限公司 一种基于大数据的用户搜索匹配方法
CN109741114A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种大数据金融场景下的用户购买预测方法
US10417650B1 (en) * 2015-12-04 2019-09-17 Google Llc Distributed and automated system for predicting customer lifetime value
CN110322085A (zh) * 2018-03-29 2019-10-11 北京九章云极科技有限公司 一种客户流失预测方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417650B1 (en) * 2015-12-04 2019-09-17 Google Llc Distributed and automated system for predicting customer lifetime value
CN110322085A (zh) * 2018-03-29 2019-10-11 北京九章云极科技有限公司 一种客户流失预测方法和装置
CN109635118A (zh) * 2019-01-10 2019-04-16 博拉网络股份有限公司 一种基于大数据的用户搜索匹配方法
CN109741114A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种大数据金融场景下的用户购买预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ADSUHVIUSA: ""基于深度学习的行人属性多标签识别"", 《HTTPS://WWW.DOC88.COM/P-0962547453276.HTML》 *
高旭旭: "基于深度学习的分类预测算法研究及实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488163A (zh) * 2020-11-17 2021-03-12 中国平安财产保险股份有限公司 一种异常账号的识别方法、装置、计算机设备及存储介质
TWI754476B (zh) * 2020-11-30 2022-02-01 中華電信股份有限公司 基於集成式學習之障礙診斷系統、方法及電腦可讀媒介
CN112836877A (zh) * 2021-02-04 2021-05-25 广西蜂鸟汽车科技有限公司 一种改进多层感知机的电信客户流失预测方法及系统
CN113033909A (zh) * 2021-04-08 2021-06-25 中国移动通信集团陕西有限公司 携转用户分析方法、装置、设备及计算机存储介质
CN113706187A (zh) * 2021-07-13 2021-11-26 杭州电子科技大学 一种基于时空图卷积的电信用户流失行为预测方法及系统
CN113724010A (zh) * 2021-09-01 2021-11-30 吉林亿联银行股份有限公司 客户流失预测方法及装置
WO2023115876A1 (zh) * 2021-12-24 2023-06-29 深圳前海微众银行股份有限公司 一种信息处理方法及装置、存储介质
CN114418024A (zh) * 2022-01-26 2022-04-29 深圳前海微众银行股份有限公司 学历预测方法、系统、终端设备及存储介质
CN114418024B (zh) * 2022-01-26 2024-05-31 深圳前海微众银行股份有限公司 学历预测方法、系统、终端设备及存储介质
CN115147155A (zh) * 2022-07-05 2022-10-04 西南交通大学 一种基于集成学习的铁路货运客户流失预测方法

Similar Documents

Publication Publication Date Title
CN111538873A (zh) 一种基于端对端模型的电信客户流失概率预测方法及系统
CN111667267B (zh) 一种区块链交易风险识别方法及装置
CN109961248B (zh) 运单投诉预测方法、装置、设备及其存储介质
CN110798502B (zh) 基于微服务框架的灰度发布方法、装置和计算机设备
CN109191312A (zh) 一种理赔反欺诈风控方法及装置
CN102082703A (zh) 业务支撑系统设备性能监控的方法及装置
CN110955828B (zh) 一种基于深度神经网络的多因素嵌入个性化套餐推荐方法
CN112633962A (zh) 业务推荐方法、装置、计算机设备和存储介质
CN112015977A (zh) 一种定制信息推送方法、装置和电子设备
CN111222631A (zh) 业务预测方法以及装置
CN111800807A (zh) 一种基站用户数量告警的方法及装置
CN109766541B (zh) 一种营销策略的识别方法、服务器和计算机存储介质
CN112215444A (zh) 基于分布曲线的预测方法、装置、设备及存储介质
CN112163154A (zh) 数据处理方法、装置、设备及存储介质
CN116629918A (zh) 一种基于跨境电商的用户消费预测方法及系统
CN116880867A (zh) 基于策略大模型的决策引擎更新方法及装置
CN115689016A (zh) 一种业扩新装客户的用电量预测方法和装置
CN113570114B (zh) 一种资源服务智能匹配方法、系统和计算机设备
CN113240098B (zh) 基于混合门控神经网络的故障预测方法、装置和存储介质
CN110020728B (zh) 业务模型强化学习方法以及装置
CN115757002A (zh) 一种能耗确定方法、装置、设备及计算机可读存储介质
KR102084920B1 (ko) 근린생활시설 영업시간 예측 장치 및 방법
CN112819069A (zh) 一种事件的定级方法及装置
CN113592160A (zh) 基于融合处理的用户设备的失联风险预测方法、系统和计算机设备
CN114330866B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200814

RJ01 Rejection of invention patent application after publication