发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种获取流失用户召回成功率的数据处理方法及装置。
第一方面,本申请实施例提供了一种获取流失用户召回成功率的数据处理方法,包括:
采集得到流失用户数据集,所述流失用户数据集中包括多个流失用户信息;
根据所述流失用户数据集得到训练集用户信息和预测集用户信息;
通过所述训练集用户信息对预设的待训练模型进行训练得到训练后模型;
在通过所述预测集用户信息对所述训练后模型进行验证,且验证结果满足预设要求时,将所述训练后模型作为预测模型;
通过所述预测模型对采集得到的待分析流失用户进行分析,得到所述待分析流失用户的预测召回成功率。
可选的,如前述的数据处理方法,所述待训练模型包括:逻辑回归模型和待训练深度神经网络模型;所述通过所述训练集用户信息对预设的待训练模型进行训练得到训练后模型,包括:
确定所述训练集用户信息中的特征类别所对应的第一特征向量;
将所述第一特征向量输入所述逻辑回归模型,获取由一个或多个所述第一特征向量得到的第二特征向量;
将所述第一特征向量和第二特征向量输入所述待训练深度神经网络模型进行训练,得到训练后深度神经网络模型;
根据所述逻辑回归模型以及训练后深度神经网络模型,得到所述训练后模型。
可选的,如前述的数据处理方法,所述根据所述流失用户数据集得到训练集用户信息和预测集用户信息,包括:
确定所述流失用户信息中用于判断召回成功率的特征类别;
根据各个所述流失用户信息中筛选得到的与所述特征类别对应的信息,得到待分类用户数据集;
根据所述待分类用户数据集得到所述训练集用户信息和预测集用户信息。
可选的,如前述的数据处理方法,在得到所述待分析流失用户的预测召回成功率之后,还包括:
获取预设召回策略与预设召回成功率之间的第一对应关系;
根据所述第一对应关系与预测召回成功率确定与所述待分析用户对应的召回策略。
可选的,如前述的数据处理方法,还包括:
确定所述预测召回成功率在预设区间内的待处理用户;
在所述预测召回成功率在预设区间内的待处理用户中,获取召回策略与实际召回成功率之间的第二对应关系;
将各个所述第二对应关系按照实际召回成功率由高至低的顺序进行排列,得到对应的排列次序;
按照所述排列次序重新生成所述预设召回策略与预设召回成功率之间的第一对应关系。
可选的,如前述的数据处理方法,在获取召回策略与实际召回成功率之间的第二对应关系之后,还包括:
确定已执行召回的已处理用户信息以及对应的实际召回成功率;
根据所述已处理用户信息以及对应的实际召回成功率对所述预测模型进行训练,得到更新后预测模型。
可选的,如前述的数据处理方法,在获取召回策略与实际召回成功率之间的第二对应关系之后,还包括:
根据已召回用户信息及对应的召回策略得到策略选择信息,所述已召回用户信息为被成功召回的用户所对应的信息;
根据所述策略选择信息,得到策略训练信息以及策略验证信息;
通过所述策略训练信息对预设的待训练策略模型进行训练得到训练后策略模型;
在通过所述策略验证信息对所述训练后策略模型进行验证后得到策略验证结果,在所述策略验证结果满足预设准确性要求时,将所述训练后策略模型作为策略选择模型。
第二方面,本申请实施例提供了一种用于流失用户推荐的数据处理装置,包括:
采集模块,用于采集得到流失用户数据集,所述流失用户数据集中包括多个流失用户信息;
筛选模块,用于根据所述流失用户数据集得到训练集用户信息和预测集用户信息;
训练模块,用于通过所述训练集用户信息对预设的待训练模型进行训练得到预测模型;
模型确定模块,用于在通过所述预测集用户信息对所述训练后模型进行验证,且验证结果满足预设要求时,将所述训练后模型作为预测模型;
用户确定模块,用于通过所述预测模型对采集得到的待分析流失用户进行分析,得到所述待分析流失用户的预测召回成功率。
第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现如前述任一项所述的处理方法。
第四方面,本申请提供了一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如前述任一项所述的处理方法。
本申请实施例提供的该方法,一种获取流失用户召回成功率的数据处理方法及装置,其中方法包括:采集得到流失用户数据集,所述流失用户数据集中包括多个流失用户信息;根据所述流失用户数据集得到训练集用户信息和预测集用户信息;通过所述训练集用户信息对预设的待训练模型进行训练得到训练后模型;在通过所述预测集用户信息对所述训练后模型进行验证,且验证结果满足预设要求时,将所述训练后模型作为预测模型;通过所述预测模型对采集得到的待分析流失用户进行分析,得到所述待分析流失用户的预测召回成功率。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:将后台的流失用户数据集作为用户基础特征、用户行为特征和用户消费特征,训练并建立用于预测召回成功率的预测模型,并且能够通过预测模型得到用户的预测召回成功率,进而能够快速准确地识别一段时间内的流失用户以及流失用户被召回的可能性。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在相关技术中,开展基于APP流失用户召回客群推荐,必须基于对具体业务场景的精准理解。如果对流失的全部用户不做区分,采用相同策略开展大范围的短信、邮件和APP端Push等召回策略,固然可以,但召回客群量很大,召回成本较高,召回效率偏低,实际用户的回流率(回流率是指针对一批用户,回流所占的比例)也偏低。因为流失用户中存在不少的问题用户,如“薅羊毛”用户和僵尸用户等,即不可能召回用户。还有一些召回意向度偏低的用户,即使采用各类召回策略,其被召回的可能性也比较小。这与精准营销的要义相背离。
目前存在的APP业务场景下的用户流失预测和告警等研究较多,各种类型应有尽有。但对流失用户召回客群精准推荐的研究较少,不太深入,未对上述流失用户中的问题用户、召回意向度偏低的用户等作区分。大多采用的是逻辑回归、未经优化的决策树等传统算法。
目前对App业务场景下已流失用户召回客群精准推荐的研究较少,但大多是针对某个特殊的业务场景,比如电商类App、社交类App、工具类App等,业务场景单一。
即使有相关的研究,算法单一且欠优化,其研究的流失用户召回客群推荐的算法中,捕获率、回流率和召回效率偏低,召回效率有待极高。最终导致流失用户的实际回流率也偏低,不能满足精准推荐高召回成功率(召回成功率为:每个用户被成功召回的概率)意向客群的要求。
基于App的流失用户召回客群精准推荐,力图为大多数业务场景下的App流失用户分析和召回提供一套统一的解决方案。不仅要对业务场景下的用户流失进行精准预测,而且根据流失用户的特征,还要将流失用户进行分层分类,分析各类流失用户群体被召回的可能性。进而找到流失用户被召回意向度高的用户群体,开展流失用户召回客群精准推荐,其业务场景及相应特征工程的复杂度及建模的难度大大增加。这也是现有技术存在缺点的重要原因之一。
图1为本申请实施例提供的一种获取流失用户召回成功率的数据处理方法,包括如下所述步骤S11至S15:
步骤S11.采集得到流失用户数据集,流失用户数据集中包括多个流失用户信息。
具体的,流失用户是指那些曾经使用过产品或服务,由于对产品失去兴趣等种种原因,不再使用产品或服务的用户;“时间期限”根据不同产品或服务,有所不同,如半年或一年等;流失用户信息可以包括:流失用户的基本信息、行为信息和支付信息等;流失用户数据集则是包括多个流失用户信息的数据集合;可选的,流失用户数据集的采集方式可以是:从App或系统后台服务器日志中采集到。
由于需要得到流失用户的召回成功率;因此,流失用户是对其进行过召回的用户,且一般的,由于每个流失用户的只存在成功召回或未成功召回两种情况(可选的,成功召回的用户可以通过标签1进行标记,未成功召回的用户可以通过标签0进行标记),无法从单个用户身上体现出召回成功率;因此,需要通过多个流失用户体现出召回成功率;其中一种可选的实现方式中,可以将流失用户信息一致或接近的多个流失用户信息的回流率作为其中任一个所述流失用户信息的召回成功率。
步骤S12.根据流失用户数据集得到训练集用户信息和预测集用户信息。
具体的,流失用户数据集则是包括多个流失用户信息的数据集合;因此将其中一部分流失用户信息作为训练集用户信息,另一部分流失用户信息作为预测集用户信息;且一般的,训练集用户信息和预测集用户信息中的流失用户信息互不重复。
步骤S13.通过训练集用户信息对预设的待训练模型进行训练得到训练后模型。
具体的,一般可以将深度神经网络(Deep neural network)作为待训练模型进行训练,进而实现根据用户信息预测其召回的成功率的目的。
步骤S14.在通过预测集用户信息对训练后模型进行验证,且验证结果满足预设要求时,将训练后模型作为预测模型。
具体的,预测模型是用于根据流失用户信息预测得到召回成功率,进而判断是否对该用户进行召回;验证结果可以是预测集用户信息输入训练后模型得到召回成功率与预测集用户信息的实际召回成功率之间的误差值,且,预设要求可以是一数值区间,当误差值在该数值区间内时,则判定验证结果满足预设要求,该训练后模型即可作为预测模型进行使用;预设要求对应的区间大小可以根据模型的精确度进行选择。
步骤S15.通过预测模型对采集得到的待分析流失用户进行分析,得到待分析流失用户的预测召回成功率。
具体的,待分析流失用户可以是满足流失用户判定标准的用户,判定标准可以是:用户一个月内未登陆APP,或者一个月内未在APP内进行消费等等,具体的标准可以根据实际场景进行选择;可选的,在得到预测模型之后,即可获取该待分析流失用户的用户信息,将用户信息输入预测模型之后即可得到对应的预测召回成功率。
将后台的流失用户数据集作为用户基础特征、用户行为特征和用户消费特征,训练并建立用于预测召回成功率的预测模型,并且能够通过预测模型得到用户的预测召回成功率,进而能够快速准确地识别一段时间内的流失用户以及流失用户被召回的可能性。
由于本发明提出流失用户的判定标准可结合APP的特定复杂场景进行定义,使模型能够灵活结合和反映当前实际应用情形,预测和识别的准确率更高。
在一些实施例中,如前述的数据处理方法,待训练模型包括:逻辑回归模型和待训练深度神经网络模型;步骤S13通过训练集用户信息对预设的待训练模型进行训练得到训练后模型,包括如下所述步骤A1至A4:
步骤A1.确定训练集用户信息中的特征类别所对应的第一特征向量。
步骤A2.将第一特征向量输入逻辑回归模型,获取由一个或多个第一特征向量得到的第二特征向量;
步骤A3.将第一特征向量和第二特征向量输入待训练深度神经网络模型进行训练,得到训练后深度神经网络模型;
步骤A4.根据逻辑回归模型以及训练后深度神经网络模型,得到训练后模型。
具体的,不同的特征类别定义为一个第一特征向量,即第一特征向量是直接通过原始的流失用户信息得到的。
所述逻辑回归(LR)模型可以是:Yw=f(Xwww+bw),其中,Yw是高维向量,维度等于特征量n,bw是常数项,ww、bw表示模型参数;f为逻辑斯蒂函数,f(x)=1/(1+e-x);Xw为模型特征。逻辑回归模型是用于根据一个或多个低维的向量(即前述的第一特征向量);生成一个高维的向量。
举例来说,待训练深度神经网络(DNN)模型的模型结构可以是:有2个输入层,4个隐藏层,2个输出层,其中输入层是5维的向量,隐藏层是10维的向量,输出层是2维的向量。
模型参数的定义:
wi:i=1是3×10矩阵,表示输入层到隐藏层的连接权重;i=2,3是10×10的矩阵,表示隐藏层的与下一个隐藏连接的权重系数;
w:10×1的矩阵,表示最后一个隐藏层与输出层连接的权重系数;
bi:1×10的矩阵,表示每个隐藏层的偏置系数;
b:1×1的矩阵,表示输出层的偏置系数;
logistics(l):逻辑斯蒂函数,例如:logistics(10)=1/(1+e-10)
f(L):表示隐藏层的输出函数,其中L是多维度向量,该函数会把L中每个元素带入逻辑斯蒂函数进行变换,最终逻辑斯蒂变换后的多维度向量。例如:L=(1,2,…,50),那么f(L)=(1/(1+e-1),1/(1+e-2),1/(1+e-3),…,1/(1+e-50));
YD:是一个数值,是用于预测用户是否流失的预测值;
各层关系如下:第一层隐藏层:L1=f(Xdw1+b1),第二层隐藏层:L2=f(L1w2+b2),输出层:YD=f(L2w+b)
通过本实施例中的方法,可以得到一个基于逻辑回归的深层神经网络模型(LR+DNN模型):即逻辑回归和深层神经网络融合模型,是把逻辑回归模型与深层神经网络模型融合在一起。逻辑回归模型是大规模离散特征的LR算法,该部分擅长记忆。深层神经网络模型是DNN算法,该模型擅长泛化。为了把这两个优点结合起来,用DNN的输出层与逻辑回归的逻辑斯蒂回归模型组合起来,表达式如下所示,:
YWD=f([L2,Xw][w,ww]+b)
其中,[A,B]表示把A向量和B向量合并为一个向量,合并后的向量维度等于A向量的维度加上B向量的维度。例如A=(1,2),而B=(3,4,5),那么[A,B]=(1,2,3,4,5)。
在一个实施案例中,将训练集的特征向量和各自的标识输入LR+DNN模型中进行训练,生成流失用户召回模型,包括:
通过预设算法求解预先构建的损失函数最小时LR+DNN模型的模型参数,基于求解上述LR+DNN模型的模型参数和训练集的特征向量有关的变量。
假设T表示第二个统计日期,m表示第(T-流失周期)天的样本数量;(Xi,yi)表示第(T-流失周期)天的样本用户i的模型特征Xi,以及用于指示样本用户是否流失的标识yi;Yi表示LR+DNN模型预测用户流失的值,即YWD,那么损失函数为:
把所有Yi按照上面的计算表达式展开,通过预设算法求解损失函数los最小时对应解w1,w2,b1,b2,w,b,ww,该解即为LR+DNN模型的模型参数。
可选的,可以通过梯度下降法(Gradient descent)求解损失函数los,进而确定LR+DNN模型参数:
第一步:把模型所有参数统一记到一个集合,假设记为θ={θi},随机给定一组在0-1之间,设为θ(0),初始化迭代步数k=0;
第二步,迭代计算其中ρ用于控制收敛速度,可选的取0.01;
第三步;判断是否收敛;
如果那么就返回θ(k+1),否则回到第二步继续计算,其中α是一个很小的值,可以取0.01*ρ。至此,就生成流失用户召回客群精准推荐模型。
在确定模型参数之后,便确定了逻辑回归模型和待训练深度神经网络模型,然后便可将训练集用户信息输入LR+DNN模型中,对其进行训练,进而得到训练后模型。
如图2所示,在一些实施例中,如前述的数据处理方法,步骤S12根据流失用户数据集得到训练集用户信息和预测集用户信息,包括如下所述步骤S21至S23:
步骤S21.确定流失用户信息中用于判断召回成功率的特征类别;
具体的,特征类别可以通过人工进行筛选得到。特征类别的来源可以为:流失30-365天的登录、消费、支付、流量汇总等行为指标,之后通过过滤法和嵌入法等来选择有效特征;可选的,通过上述方法获得基础特征类别之后,还可以根据基础特征类别寻找高级特征类别,可用的方法有:若干项特征加和、若干项特征之差、若干项特征乘积、若干项特征除商等。
举例来说,当进行网上购物APP的用户召回时,可以选用的特征还可以包括:基本信息、信用额度相关指标、支付相关指标、商城相关指标、金融app相关指标等等;除此之外,还可以根据实际使用情况采用其它特征类别的指标。
步骤S22.根据各个流失用户信息中筛选得到的与特征类别对应的信息,得到待分类用户数据集。
具体的,由于流失用户信息中包括的特征类别存在多个,不仅限于用于判断召回成功率的特征类别;因此本步骤用于对流失用户信息进行筛选,对于每个流失用户信息,只保留用于判断召回成功率的特征类别;进而根据信息筛选后的流失用户信息得到待分类用户数据集。
步骤S23.根据待分类用户数据集得到训练集用户信息和预测集用户信息。
具体的,根据待分类用户数据集得到训练集用户信息和预测集用户信息,可以是将待分类用户数据集中一部分流失用户信息作为训练集用户信息,另一部分流失用户信息作为预测集用户信息;且一般的,训练集用户信息和预测集用户信息中的流失用户信息互不重复。
如图3所示,在一些实施例中,如前述的数据处理方法,在得到待分析流失用户的预测召回成功率之后,还包括如下所述步骤S31和S32:
步骤S31.获取预设召回策略与预设召回成功率之间的第一对应关系;
具体的,预设召回策略可以包括:
①短信,可批量发放;但易被当成垃圾短信,并引发投诉;
②邮件,低成本,可大量发送,但点击率低;
③APP推送方式,效果较好,但取决于用户安装APP时是否选择允许推送;
④微信通知,即微信服务号的用户通知模板,效果取决于用户是否关注相关微信号;
⑤电话回访,成本高,无法批量操作,主要适用于VIP用户;
⑥礼物召回,包括赠送纪念品、周边、伴手礼等,适用于种子用户;
⑦福利召回,可以通过向账户发放诸如优惠券,现金红包、体验金等福利;
⑧活动召回,取决于活动类型和宣传渠道。
预设召回成功率为:在建立第一对应关系时,人为设定的与预设召回策略对应的召回成功率,以便于后期能够将通过模型计算得到的预测召回成功率与预设召回成功率进行匹配,筛选得到对应的召回策略。
可选的,在用户的召回成功率低(例如20%)的时候,可以采用礼物召回和福利召回等对用户的吸引力较高的方式对该用户进行召回;在用户的召回成功率高(例如90%)的时候,则可采用成本较低的方式,例如APP推送或邮件或短信的方式进行召回。
步骤S32.根据第一对应关系与预测召回成功率确定与待分析用户对应的召回策略。
用预测集进行模型实施。从而准确识别出高回流率的流失用户,按照不同客群用户分层和确定高回流率的客户。之后,对这些高回流率的客户针对性地以邮件、短信、push、微信通知等方式开展召回工作。可极大地提高流失用户的召回效率,降低流失用户的召回成本。
如图4所示,在一些实施例中,如前述的数据处理方法,还包括如下所述步骤S41至S44:
步骤S41.确定预测召回成功率在预设区间内的待处理用户。
具体的,可以获取各个待处理用户的预测召回成功率,然后按照降序对其进行排列,其中,预设区间可以是:用于表征成功率大小范围的区间,也可以是:在将成功率按照降序或升序排列时,用于表征成功率排名的区段,例如,当按照降序排列时,排名在前5%,前10%等等。
步骤S42.在预测召回成功率在预设区间内的待处理用户中,获取召回策略与实际召回成功率之间的第二对应关系;
具体的,获取预测召回成功率与预设区间吻合的所有待处理用户,可选的将该类待处理用户记为用户A,由于每个用户A采用的召回策略不一定相同,因此,可以获取各个用户A采用的召回策略,然后将采用相同召回策略的用户A归为同一组,计算得到该组对应的实际召回成功率,进而获取召回策略与实际召回成功率之间的第二对应关系。
步骤S43.将各个第二对应关系按照实际召回成功率由高至低的顺序进行排列,得到对应的排列次序;
具体的,由于第二对应关系中的各个召回策略对应的预测召回成功率是在同一区间内的,因此可以通过排列次序体现出召回策略对实际召回成功率的影响。
步骤S44.按照排列次序重新生成预设召回策略与预设召回成功率之间的第一对应关系。
可选的,在最初采用不同的召回策略进行流失用户召回时,为了避免因为某一召回策略效果太差导致召回成功率过低的情况,可以对召回成功率进行细分,例如:预测召回成功率为85.5%时采用召回策略I,预测召回成功率为85.8%时采用召回策略II,具体细分的程度可以根据实际应用进行调整;由于预测召回成功率之间极为接近,因此对于重新生成预设召回策略与预设召回成功率之间的第一对应关系,可以对实际召回成功率偏移预测召回成功率较大的预设召回策略进行调整,进而可以优化召回策略的选择,进一步提高流失用户召回的成功率。
如图5所示,在一些实施例中,如前述的数据处理方法,在获取召回策略与实际召回成功率之间的第二对应关系之后,还包括如下所述步骤S51和S52:
步骤S51.确定已执行召回的已处理用户信息以及对应的实际召回成功率;
具体的,已处理用户信息为:对该信息对应的用户通过任一召回策略执行过召回的信息;实际召回成功率为:所有已处理用户信息对应的用户中,被成功召回的数量占比。
步骤S52.根据已处理用户信息以及对应的实际召回成功率对预测模型进行训练,得到更新后预测模型。
也就是说,通过最新的训练数据(即:已处理用户信息以及对应的实际召回成功率)对预测模型进行训练,使该模型具有自学习能力,能够实时根据最新的数据进行训练,进而可以有效提高预测准确性。
如图6所示,在一些实施例中,如前述的数据处理方法,在获取召回策略与实际召回成功率之间的第二对应关系之后,还包括如下所述步骤S61至S64:
步骤S61.根据已召回用户信息及对应的召回策略得到策略选择信息,已召回用户信息为被成功召回的用户所对应的信息;
具体的,已召回用户信息为:对该信息对应的用户通过任一召回策略执行过召回的用户对应的信息,此外,由于已召回用户信息对应的用户是成功被召回的;策略选择信息中包括:已处理用户信息和召回策略,以及其两者之间的对应关系。
步骤S62.根据策略选择信息,得到策略训练信息以及策略验证信息。
具体的,根据策略选择信息得到策略训练信息以及策略验证信息,可以是将策略选择信息中一部分信息作为策略训练信息,另一部分流失用户信息作为策略验证信息;且一般的,策略训练信息以及策略验证信息中的信息互不重复。
步骤S63.通过策略训练信息对预设的待训练策略模型进行训练得到训练后策略模型;
具体的,一般可以将深度神经网络(Deep neural network)作为待训练策略模型进行训练,进而实现根据用户信息预测其适用的最佳召回策略的目的。
步骤S64.在通过策略验证信息对训练后策略模型进行验证后得到策略验证结果,在策略验证结果满足预设准确性要求时,将训练后策略模型作为策略选择模型。
具体的,策略选择模型是用于根据流失用户信息预测得到召回策略的模型。
策略验证结果可以是策略验证信息输入训练后模型得到的推荐召回策略与实际召回策略是否统一的结果,当两者相互统一时则判定验证结果满足要求。
可选的,预设准确性要求可以是:在对一定数量的流失用户信息进行处理后,得到的推荐召回策略与实际召回策略一致的概率达到一指定下限阈值(例如:99%等等,预设准确性要求对应的下线阈值可以根据模型的精确度进行选择)。
当训练后策略模型的策略验证结果满足预设准确性要求即可将其作为策略选择模型进行使用。
对前述任一实施例中的方法得到的预测召回成功率进行应用的方法,如下所述:
首先梳理和确定流失天数在30-365天的用户流失数据作为建模对象,具体为:
(1)建模对象:2019年7月流失用户中最近一次登录在30-365天以内的用户群。
(2)测试对象:2019年8月流失的非化石过客(即流失30~365天未登陆的用户)、最近一次登录距今30-365天内的用户,用于测试召回成功率。
(3)口径:2019年7月不活跃的用户则为流失用户,7月不活跃而8月活跃的用户则为回流用户;当日新增当天流失则为过客用户,其他为非过客用户。
(4)标签:回流用户为1,不回流用户为0。
进行回流效率判断的按照逻辑回归(Logistic regression)+深层神经网络(Deepneural network)+梯度下降(Gradient descent)算法,即LRDNNGD算法,流失非化石用户召回算法建模已完成。模型详情如下:
观察期:2019年7月
用户范围:截至2019年7月31日流失非化石用户,用户量级:43187398。
表现期:2019年8月(即:在8月份对上述用户范围内的流失用户进行召回,且在本月记录得到对应的召回情况);
基准率(自然回流的概率):2019-07:9.6%;2019-08:7.8%
模型输出结果
8月数据验证模型结果:前5%的捕获率相对于其它模型的提升度为:4.9%;前40%的捕获率:80%;回流效率最高的用户数比例为:前20%。
模型使用最终会结合用户中心召回成本选择,假设以捕获率优先,由于从45%开始,捕获率提升很慢,说明前40%之外的流失用户回流率低,因此,可选择前40%的流失用户进行召回。具体召回情况见如下所示的回流表,其中:捕获率指实际回流用户占总体回流用户的比例;回流率指实际回流用户占所选用户群的比例;回流效率=捕获率*回流率。
回流表
其中,用户数比例是指对模型判断回流概率由高至低进行排列后,选取的用户占总体用户的比例;
为了判断回流率是否与流失周期相符合,得到如下所示的模型名单流失周期分段统计表:
模型名单流失周期分段统计表
模型评价
由于流失周期越长回流率越低,模型选取用户流失180天以上的用户占比由36%降至11%,结合模型拟合指标(auc、提升度等),验证模型效果是好的。
同时解决了用户在不同流失周期的用户选择比例的问题。
根据训练集用户的特征和流失用户标签,基于LRDNNGD算法,训练梯度提升决策树算法得到流失用户召回模型;根据预测集用户的特征,通过流失用户召回模型,按照不同客群用户分层,分别求出各不同客群用户(Top5%,Top10%,Top15%,Top20%,Top25%,Top30%,Top35%,Top40%,Top45%,Top50%,Top55%,Top60%,Top65%,Top70%,Top75%,Top80%,Top85%,Top90%,Top95%,Top100%)的捕获率、回流率、回流效率和相比以往模型的提升度。并用测试集进行验证。
如图7所示,根据本申请另一方面的一个实施例,还提供了一种用于流失用户推荐的数据处理装置,包括:
采集模块1,用于采集得到流失用户数据集,流失用户数据集中包括多个流失用户信息;
筛选模块2,用于根据流失用户数据集得到训练集用户信息和预测集用户信息;
训练模块3,用于通过训练集用户信息对预设的待训练模型进行训练得到预测模型;
模型确定模块4,用于在通过预测集用户信息对训练后模型进行验证,且验证结果满足预设要求时,将训练后模型作为预测模型;
用户确定模块5,用于通过预测模型对采集得到的待分析流失用户进行分析,得到待分析流失用户的预测召回成功率。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请的另一个实施例,还提供一种电子设备,包括:如图8所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述方法实施例的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。