发明内容
本说明书一个或多个实施例的目的是提供一种用户流失预测方法及装置,用以高效准确地对用户的流失风险进行预测。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
一方面,本说明书一个或多个实施例提供一种用户流失预测方法,包括:
针对多个样本用户,获取各所述样本用户的相关交易信息;其中,所述相关交易信息包括所述样本用户的第一用户信息、与所述样本用户进行交易的交易方用户的第二用户信息、交易时间、交易金额中的至少一项;
根据所述相关交易信息,确定各所述样本用户的用户特征及用户类型;其中,所述用户类型包括流失类用户或留存类用户;
根据各所述样本用户的用户特征及所用户类型,确定待预测用户的流失风险级别。
在一个实施例中,所述根据各所述样本用户的用户特征及用户类型,确定待预测用户的流失风险级别,包括:
根据各所述样本用户的用户特征,对各所述样本用户进行聚类,得到至少一个用户群组;
根据各所述用户群组中的各所述样本用户的用户类型,确定各所述用户群组的群组类型;所述群组类型包括高流失风险群组或低流失风险群组;
根据所述待预测用户的用户特征,确定所述待预测用户所在的第一用户群组;
根据所述第一用户群组的群组类型,确定所述待预测用户的流失风险级别。
在一个实施例中,所述根据各所述用户群组中的各所述样本用户的用户类型,确定各所述用户群组的群组类型,包括:
若所述用户群组中属于所述流失类用户的样本用户的比例高于或等于预设阈值,则确定所述用户群组的群组类型为所述高流失风险群组;
若所述用户群组中属于所述流失类用户的样本用户的比例低于所述预设阈值,则确定所述用户群组的群组类型为所述低流失风险群组。
在一个实施例中,所述方法还包括:
根据各所述样本用户的用户类型,确定所述样本用户的第一流失率;其中,所述第一流失率指属于所述流失类用户的样本用户占所有样本用户的比率;
确定所述第一流失率为所述预设阈值。
在一个实施例中,所述根据所述第一用户群组的群组类型,确定所述待预测用户的流失风险级别,包括:
若所述第一用户群组的群组类型为所述高流失风险群组,则确定所述待预测用户的流失风险级别为高流失风险级别;
若所述第一用户群组的群组类型为所述低流失风险群组,则确定所述待预测用户的流失风险级别为低流失风险级别。
在一个实施例中,所述根据各所述样本用户的用户特征及用户类型,确定待预测用户的流失风险级别,包括:
对各所述样本用户的用户特征及各所述样本用户的用户类型进行训练,得到预测模型;所述预测模型包括所述用户特征对应的样本用户属于所述流失类用户的第一概率,和/或,所述用户特征对应的样本用户属于所述留存类用户的第二概率;
将所述待预测用户的用户特征作为所述预测模型的输入数据,确定所述待预测用户的用户特征对应的所述第一概率和/或所述第二概率;
根据所述待预测用户的用户特征对应的所述第一概率和/或所述第二概率,确定所述待预测用户的流失风险级别。
在一个实施例中,所述根据所述相关交易信息,确定各所述样本用户的用户特征及用户类型,包括:
根据所述相关交易信息,确定各所述样本用户和所述交易方用户之间的交易关系;
根据所述交易关系,确定各所述样本用户之间的关联关系;其中,与相同交易方用户具有所述交易关系的多个所述样本用户之间具有所述关联关系;
根据各所述样本用户和与其相邻的邻接用户之间的关联关系,确定各所述样本用户的拓扑特征;
根据所述拓扑特征确定各所述样本用户的用户特征。
在一个实施例中,所述关联关系包括各所述样本用户之间具有的相同交易方用户的数量;
相应的,所述根据各所述样本用户和与其相邻的邻接用户之间的关联关系,确定各所述样本用户的拓扑特征,包括:
根据各所述样本用户和与其相邻的邻接用户之间具有的相同交易方用户的数量,确定各所述样本用户和所述邻接用户之间的距离参数值;其中,所述距离参数值与所述样本用户和所述邻接用户之间具有的相同交易方用户的数量成正比;
根据所述距离参数值,确定各所述样本用户的拓扑特征。
在一个实施例中,所述确定各所述样本用户的拓扑特征之后,还包括:
将所述样本用户的拓扑特征作为输入向量、将所述邻接用户的第二流失率作为输出向量进行训练,以训练出所述样本用户的流失相关特征;其中,所述第二流失率指属于所述流失类用户的所述邻接用户占所有所述邻接用户的比率;
相应的,所述根据所述拓扑特征确定各所述样本用户的用户特征,包括:
根据所述拓扑特征和/或所述流失相关特征,确定各所述样本用户的用户特征。
另一方面,本说明书一个或多个实施例提供一种用户流失预测装置,包括:
获取模块,用于针对多个样本用户,获取各所述样本用户的相关交易信息;其中,所述相关交易信息包括所述样本用户的第一用户信息、与所述样本用户进行交易的交易方用户的第二用户信息、交易时间、交易金额中的至少一项;
第一确定模块,用于根据所述相关交易信息,确定各所述样本用户的用户特征及用户类型;其中,所述用户类型包括流失类用户或留存类用户;
第二确定模块,用于根据各所述样本用户的用户特征及所用户类型,确定待预测用户的流失风险级别。
在一个实施例中,所述第二确定模块包括:
聚类单元,用于根据各所述样本用户的用户特征,对各所述样本用户进行聚类,得到至少一个用户群组;
第一确定单元,用于根据各所述用户群组中的各所述样本用户的用户类型,确定各所述用户群组的群组类型;所述群组类型包括高流失风险群组或低流失风险群组;
第二确定单元,用于根据所述待预测用户的用户特征,确定所述待预测用户所在的第一用户群组;
第三确定单元,用于根据所述第一用户群组的群组类型,确定所述待预测用户的流失风险级别。
在一个实施例中,所述第一确定单元还用于:
若所述用户群组中属于所述流失类用户的样本用户的比例高于或等于预设阈值,则确定所述用户群组的群组类型为所述高流失风险群组;
若所述用户群组中属于所述流失类用户的样本用户的比例低于所述预设阈值,则确定所述用户群组的群组类型为所述低流失风险群组。
在一个实施例中,所述第一确定单元还用于:
根据各所述样本用户的用户类型,确定所述样本用户的第一流失率;其中,所述第一流失率指属于所述流失类用户的样本用户占所有样本用户的比率;
确定所述第一流失率为所述预设阈值。
在一个实施例中,所述第三确定单元还用于:
若所述第一用户群组的群组类型为所述高流失风险群组,则确定所述待预测用户的流失风险级别为高流失风险级别;
若所述第一用户群组的群组类型为所述低流失风险群组,则确定所述待预测用户的流失风险级别为低流失风险级别。
在一个实施例中,所述第二确定模块包括:
模型训练单元,用于对各所述样本用户的用户特征及各所述样本用户的用户类型进行训练,得到预测模型;所述预测模型包括所述用户特征对应的样本用户属于所述流失类用户的第一概率,和/或,所述用户特征对应的样本用户属于所述留存类用户的第二概率;
第四确定单元,用于将所述待预测用户的用户特征作为所述预测模型的输入数据,确定所述待预测用户的用户特征对应的所述第一概率和/或所述第二概率;
第五确定单元,用于根据所述待预测用户的用户特征对应的所述第一概率和/或所述第二概率,确定所述待预测用户的流失风险级别。
在一个实施例中,所述第一确定模块包括:
第六确定单元,用于根据所述相关交易信息,确定各所述样本用户和所述交易方用户之间的交易关系;
第七确定单元,用于根据所述交易关系,确定各所述样本用户之间的关联关系;其中,与相同交易方用户具有所述交易关系的多个所述样本用户之间具有所述关联关系;
第八确定单元,用于根据各所述样本用户和与其相邻的邻接用户之间的关联关系,确定各所述样本用户的拓扑特征;
第九确定单元,用于根据所述拓扑特征确定各所述样本用户的用户特征。
在一个实施例中,所述关联关系包括各所述样本用户之间具有的相同交易方用户的数量;
相应的,所述第八确定单元还用于:
根据各所述样本用户和与其相邻的邻接用户之间具有的相同交易方用户的数量,确定各所述样本用户和所述邻接用户之间的距离参数值;其中,所述距离参数值与所述样本用户和所述邻接用户之间具有的相同交易方用户的数量成正比;
根据所述距离参数值,确定各所述样本用户的拓扑特征。
在一个实施例中,所述第一确定模块包括:
特征训练单元,用于所述确定各所述样本用户的拓扑特征之后,将所述样本用户的拓扑特征作为输入向量、将所述邻接用户的第二流失率作为输出向量进行训练,以训练出所述样本用户的流失相关特征;其中,所述第二流失率指属于所述流失类用户的所述邻接用户占所有所述邻接用户的比率;
相应的,所述第九确定单元还用于:
根据所述拓扑特征和/或所述流失相关特征,确定各所述样本用户的用户特征。
再一方面,本说明书一个或多个实施例提供一种用户流失预测设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
针对多个样本用户,获取各所述样本用户的相关交易信息;其中,所述相关交易信息包括所述样本用户的第一用户信息、与所述样本用户进行交易的交易方用户的第二用户信息、交易时间、交易金额中的至少一项;
根据所述相关交易信息,确定各所述样本用户的用户特征及用户类型;其中,所述用户类型包括流失类用户或留存类用户;
根据各所述样本用户的用户特征及所用户类型,确定待预测用户的流失风险级别。
再一方面,本申请实施例提供一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
针对多个样本用户,获取各所述样本用户的相关交易信息;其中,所述相关交易信息包括所述样本用户的第一用户信息、与所述样本用户进行交易的交易方用户的第二用户信息、交易时间、交易金额中的至少一项;
根据所述相关交易信息,确定各所述样本用户的用户特征及用户类型;其中,所述用户类型包括流失类用户或留存类用户;
根据各所述样本用户的用户特征及所用户类型,确定待预测用户的流失风险级别。
采用本说明书一个或多个实施例的技术方案,通过获取各样本用户的相关交易信息(包括样本用户的用户信息、交易方用户的用户信息、交易时间、交易金额中的至少一项),并根据相关交易信息确定各样本用户的用户特征及用户类型(包括流失类用户或留存类用户),进而根据各样本用户的用户特征及用户类型确定待预测用户的流失风险级别。可见,该技术方案能够结合样本用户的用户特征及用户类型来确定待预测用户的流失风险级别,也就是说,在预测待预测用户的流失风险级别时,能够挖掘出样本用户的与流失相关的潜在特征,进而利用该潜在特征预测出待预测用户是否有流失风险,大大提高了流失风险预测的准确率,从而为用户提供准确的流失预警,增强相关业务决策。
具体实施方式
本说明书一个或多个实施例提供一种用户流失预测方法及装置,用以高效准确地对用户的流失风险进行预测。
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书一个或多个实施例保护的范围。
图1是根据本说明书一实施例的一种用户流失预测方法的示意性流程图,如图1所示,该方法包括:
S102,针对多个样本用户,获取各样本用户的相关交易信息。
其中,相关交易信息包括样本用户的第一用户信息、与样本用户进行交易的交易方用户的第二用户信息、交易时间、交易金额中的至少一项。
样本用户与交易方用户之间进行交易,在某一特定场景中,若样本用户为商户,则与其进行交易的交易方用户为与商户之间交易往来的一般客户。样本用户的第一用户信息包括商户的商户信息(如商户名称、商户位置等);交易方用户的第二用户信息包括一般客户的个人信息(如客户名称、通讯号码、身份证号码等)。
S104,根据相关交易信息,确定各样本用户的用户特征及用户类型;其中,用户类型包括流失类用户或留存类用户。
对于样本用户的用户类型可按照如下方式确定:若样本用户经营特定业务,在某个时间点之后,样本用户不再持续经营该特定业务,则该样本用户即为流失类用户;反之,若样本用户持续经营特定业务,则该样本用户即为留存类用户。
S106,根据各样本用户的用户特征及所用户类型,确定待预测用户的流失风险级别。
采用本说明书一个或多个实施例的技术方案,通过获取各样本用户的相关交易信息(包括样本用户的用户信息、交易方用户的用户信息、交易时间、交易金额中的至少一项),并根据相关交易信息确定各样本用户的用户特征及用户类型(包括流失类用户或留存类用户),进而根据各样本用户的用户特征及用户类型确定待预测用户的流失风险级别。可见,该技术方案能够结合样本用户的用户特征及用户类型来确定待预测用户的流失风险级别,也就是说,在预测待预测用户的流失风险级别时,能够挖掘出样本用户的与流失相关的潜在特征,进而利用该潜在特征预测出待预测用户是否有流失风险,大大提高了流失风险预测的准确率,从而为用户提供准确的流失预警,增强相关业务决策。
在一个实施例中,执行S104时,可按照如下步骤A1-A4确定各样本用户的用户特征:
A1、根据各样本用户的相关交易信息,确定各样本用户和交易方用户之间的交易关系。
其中,相关交易信息包括样本用户的第一用户信息、与样本用户进行交易的交易方用户的第二用户信息、交易时间、交易金额中的至少一项。
具体的,若样本用户和交易方用户之间有交易往来,则样本用户和交易方用户之间具有交易关系。
A2、根据交易关系,确定各样本用户之间的关联关系;其中,与相同交易方用户具有交易关系的多个样本用户之间具有关联关系。
例如,样本用户X和交易方用户Y之间具有交易关系,样本用户Z和交易方用户Y之间也具有交易关系,那么,样本用户X和样本用户Z之间具有关联关系。
在一个实施例中,关联关系包括各样本用户之间具有的相同交易方用户的数量。样本用户X和样本用户Z之间具有的共同交易方用户的数量越多,样本用户X和样本用户Z之间的关联关系越紧密。
例如,样本用户X和样本用户Z之间具有3个共同的交易方用户,样本用户X和样本用户M之间具有1个共同的交易方用户,那么,样本用户X和样本用户Z之间的关联关系比和样本用户M之间的关联关系更为紧密。
A3、根据各样本用户和与其相邻的邻接用户之间的关联关系,确定各样本用户的拓扑特征。
在一个实施例中,可根据各样本用户和与其相邻的邻接用户之间具有的相同交易方用户的数量,确定各样本用户和邻接用户之间的距离参数值,进而根据各样本用户和邻接用户之间的距离参数值确定各样本用户的拓扑特征。其中,距离参数值与样本用户和邻接用户之间具有的相同交易方用户的数量成正比,即,样本用户和邻接用户之间具有的相同交易方用户的数量越多,该样本用户和邻接用户之间的距离参数值越大;反之,样本用户和邻接用户之间具有的相同交易方用户的数量越少,该样本用户和邻接用户之间的距离参数值越小。
在一个实施例中,拓扑特征以向量形式表征,根据各样本用户和邻接用户之间的距离参数值确定各样本用户的拓扑特征向量时,可预先设定损失函数如下:
其中,Ui和Uj分别表示商户i和商户j的拓扑特征向量,Aij表示商户i和商户j所具有的共同交易方用户的数量。∑|Ui|是为了防止过拟合而采用的L1正则化模型。
将上述损失函数L的最小值作为学习目标进行学习,最终计算出各样本用户的拓扑特征向量。其中,将损失函数的最小值作为学习目标进行学习的过程为现有技术,此处不再赘述。
A4、根据拓扑特征确定各样本用户的用户特征。
本实施例中,仅根据拓扑特征确定各样本用户的用户特征时,可直接将拓扑特征确定为样本用户的用户特征。
而在另一个实施例中,确定各样本用户的拓扑特征(即步骤A3)之后,可将样本用户的拓扑特征作为输入向量、将与样本用户相邻的邻接用户的流失率作为输出向量进行训练,以训练出样本用户的流失相关特征,进而根据拓扑特征和/或流失相关特征,确定各样本用户的用户特征。其中,邻接用户的流失率指属于流失类用户的邻接用户占所有邻接用户的比率。本实施例中,确定样本用户的拓扑特征作为输入向量、与样本用户相邻的邻接用户的流失率为输出向量,并在输入向量和输出向量之间建立隐藏层进行训练,即可训练出隐藏层向量,该隐藏层向量即为样本用户的流失相关特征。
若仅根据样本用户的流失相关特征确定各样本用户的用户特征时,可直接将流失相关特征确定为样本用户的用户特征。
若根据样本用户的拓扑特征和流失相关特征确定各样本用户的用户特征时,可结合样本用户的拓扑特征和流失相关特征,以获得一个综合特征,并将该综合特征确定为样本用户的用户特征。
较为简单的综合方法中,可将拓扑特征和流失相关特征直接拼接得到综合特征。例如,拓扑特征为向量(1,1),流失相关特征为向量(2,2),则拼接拓扑特征和流失相关特征之后,可得到综合特征特征为(1,1,2,2)。
当然,还可采用其他的综合方法得到综合特征,例如取拓扑特征和流失相关特征的差值、乘积等作为综合特征,此处不一一赘述。
确定各样本用户的用户特征及用户类型之后,根据各样本用户的用户特征及用户类型确定待预测用户的流失风险级别。以下详细说明两种待预测用户的流失风险级别的确定方法。
在一个实施例中,可按照如下步骤B1-B4确定待预测用户的流失风险级别:
B1、根据各样本用户的用户特征对各样本用户进行聚类,得到至少一个用户群组。
该步骤中,对各样本用户进行聚类时,可将具有相似的用户特征的样本用户聚类至同一用户群组中。
在一个实施例中,若某两个样本用户之间的距离较为紧密,则认为这两个样本用户的用户特征相似;反之,若某两个样本用户之间的距离较为疏远,则认为这两个样本用户的用户特征不相似。具体的,两个样本用户之间具有的共同交易方用户的数量越多,这两个样本用户之间的距离越紧密;反之,两个样本用户之间具有的共同交易方用户的数量越少,这两个样本用户之间的距离越疏远。
本实施例中,可预设样本用户之间具有的共同交易方用户的第一阈值,并以该第一阈值确定两个样本用户之间具有的共同交易方用户的数量多少。具体的,若某两个样本用户之间具有的共同交易方用户的数量大于或等于第一阈值,则认为这两个样本用户之间的距离紧密,可将这两个样本用户聚类至同一用户群组中;若某两个样本用户之间具有的共同交易方用户的数量小于第一阈值,则认为这两个样本用户之间的距离疏远,可将这两个样本用户聚类至不同的用户群组中。
在一个实施例中,样本用户的用户特征为向量,那么针对某两个样本用户,可通过计算这两个样本用户的用户特征向量之间的距离值(如欧氏距离),来确定这两个样本用户之间的距离。具体的,两个样本用户的用户特征向量之间的距离值越小,说明这两个样本用户之间的距离越紧密;反之,两个样本用户的用户特征向量之间的距离值越大,说明这两个样本用户之间的距离越疏远。
本实施例中,可预设样本用户的用户特征向量之间的距离阈值,并以该距离阈值确定两个样本用户的用户特征向量之间的距离远近。具体的,若某两个样本用户的用户特征向量之间的距离值小于或等于距离阈值,则认为这两个样本用户之间的距离紧密,可将这两个样本用户聚类至同一用户群组中;若某两个样本用户的用户特征向量之间的距离值大于第一阈值,则认为这两个样本用户之间的距离疏远,可将这两个样本用户聚类至不同的用户群组中。
B2、根据各用户群组中的各样本用户的用户类型,确定各用户群组的群组类型。
其中,群组类型包括高流失风险群组或低流失风险群组。
对于样本用户的用户类型可预先按照如下方式确定:若样本用户经营特定业务,在某个时间点之后,样本用户不再持续经营该特定业务,则该样本用户即为流失类用户;反之,若样本用户持续经营特定业务,则该样本用户即为留存类用户。确定样本用户的用户类型之后,可为各样本用户添加对应的用户类型标签。
在一个实施例中,若用户群组中属于流失类用户的样本用户的比例高于或等于预设阈值,则确定用户群组的群组类型为高流失风险群组;若用户群组中属于流失类用户的样本用户的比例低于预设阈值,则确定用户群组的群组类型为低流失风险群组。
本实施例中,可根据各样本用户的用户类型确定各样本用户的第一流失率,进而确定第一流失率为预设阈值。其中,第一流失率指属于流失类用户的样本用户占所有样本用户的比率。
例如,预设阈值为80%,针对一用户群组,若其中属于流失类用户的样本用户占该群组中所有样本用户的80%或80%以上,则该用户群组为高流失风险群组;若其中属于流失类用户的样本用户占该群组中所有样本用户的80%以下,则该用户群组为低流失风险群组。
B3、根据待预测用户的用户特征,确定待预测用户所在的第一用户群组。
其中,待预测用户的用户特征可按照如上步骤A1-A4来确定。
B4、根据第一用户群组的群组类型,确定待预测用户的流失风险级别。
具体的,若第一用户群组的群组类型为高流失风险群组,则确定待预测用户的流失风险级别为高流失风险级别;若第一用户群组的群组类型为低流失风险群组,则确定待预测用户的流失风险级别为低流失风险级别。
上述实施例中,能够根据各样本用户的用户特征对各样本用户进行聚类,以聚类成多个用户群组,并根据各样本用户的用户类型确定各用户群组的群组类型,进而根据待预测用户的用户特征确定待预测用户所述的用户群组,并确定出待预测用户的用户类型。可见,上述实施例的技术方案能够挖掘出各样本用户的潜在特征,并根据各样本用户的潜在特征预测用户是否可能流失,大大提高了用户流失性的预测准确率。
在一个实施例中,可按照如下步骤C1-C3确定待预测用户的流失风险级别:
C1、对各样本用户的用户特征及各样本用户的用户类型进行训练,得到预测模型。
该步骤中,可采用任一种现有的机器学习分类方法训练预测模型,如二分类模型训练方法。其中,预测模型包括用户特征对应的样本用户属于流失类用户的第一概率,和/或,用户特征对应的样本用户属于留存类用户的第二概率。
C2、将待预测用户的用户特征作为预测模型的输入数据,确定待预测用户的用户特征对应的第一概率和/或第二概率。
其中,待预测用户的用户特征对应的第一概率即为待预测用户属于流失类用户的概率,待预测用户的用户特征对应的第二概率即为待预测用户属于留存类用户的概率。
C3、根据待预测用户的用户特征对应的第一概率和/或第二概率,确定待预测用户的流失风险级别。
本实施例中,将待预测用户的用户特征作为预测模型的输入数据后,若仅确定出待预测用户属于流失类用户的概率,则可将待预测用户属于流失类用户的概率与预设的第一概率阈值做比对,若待预测用户属于流失类用户的概率高于或等于第一概率阈值,则确定待预测用户属于流失类用户;若待预测用户属于流失类用户的概率低于第一概率阈值,则确定待预测用户属于留存类用户。
若仅确定出待预测用户属于留存类用户的概率,则可将待预测用户属于留存类用户的概率与预设的第二概率阈值做比对,若待预测用户属于留存类用户的概率高于或等于第二概率阈值,则确定待预测用户属于留存类用户;若待预测用户属于留存类用户的概率低于第二概率阈值,则确定待预测用户属于流失类用户。
若同时确定出待预测用户属于流失类用户的概率及属于留存类用户的概率,则可比对这两个概率值,并将较高的概率值对应的类型确定为待预测用户的用户类型。例如,若待预测用户属于流失类用户的概率高于待预测用户属于留存类用户的概率,则可确定待预测用户属于流失类用户。
上述实施例中,通过监督学习的方法学习流失类用户/留存类用户的用户特征及用户类型,进而根据学习得到的预测模型确定待预测用户的流失风险,大大提高了用户流失性的预测准确率。
以下通过一具体场景实施例来说明本发明提供的用户流失预测方法。
在下述具体场景实施例中,样本用户为商户,与商户进行交易的交易方用户简称为用户。且为了更加清楚、简明地说明技术方案,本实施例结合画图的方式详细描述。
图2是根据本说明书一具体实施例的一种用户流失预测方法的示意性流程图,如图2所示,该方法包括:
S201,获取各商户的相关交易信息。
其中,商户的相关交易信息包括商户的商户信息(如商户名称、商户位置等)、与商户进行交易的用户信息(如用户姓名、通讯号码、身份证号码等)、交易时间、交易金额等。
本实施例中,根据各商户的商户类型,可将各商户划分为流失类商户、留存类商户及待预测商户。其中,待预测商户可能是流失类商户,也可能是留存类商户。假设本实施例中,商户A和商户B为流失类商户,商户C和商户D为留存类商户,商户E为待预测商户。
图3示出了各商户A、B、C、D、E和用户a、b、c、d、e之间的交易关系,其中,用连接线连接起来的商户和用户之间具有交易关系。如图3中,商户A和用户b之间用连接线连接在一起,说明商户A和用户b之间具有交易关系。
为使交易关系图更加一目了然,可按照商户类型来区分图3中的各商户,如图4所示,虚线框401中的商户A和商户B为流失类商户,虚线框402中的商户C和商户D为留存类商户,虚线框403中的商户E为待预测商户。
S202,根据各商户的相关交易信息,确定各商户之间的关联关系。
其中,与相同用户具有交易关系的多个商户之间具有关联关系,各商户之间的关联关系包括各商户之间具有的相同用户的数量。
由图3可看出,商户B和商户D均与用户c之间有交易关系,因此商户B和商户D之间具有关联关系。
图5示出了各商户A、B、C、D、E之间的关联关系、以及各商户之间具有的相同用户的数量。在图5中,各商户之间具有的相同用户的数量标识在图5中各商户之间的连接线上,例如,在图5中,商户A和商户B的连接线上标识数字1,说明商户A和商户B之间具有相同用户的数量为1,即商户A和商户B均与1个相同用户之间有交易关系。
S203,根据各商户和与其相邻的邻接商户之间的关联关系,确定各商户的拓扑特征。
该步骤中,各商户的拓扑特征可根据上述实施例中步骤A3中所描述的方法确定,此处不再赘述。
S204,将商户的拓扑特征作为输入向量、将与商户相邻的邻接商户的流失率作为输出向量进行训练,以训练出商户的流失相关特征。
其中,邻接商户的流失率指属于流失类商户的邻接商户占所有邻接商户的比率。确定样本用户的拓扑特征作为输入向量、与样本用户相邻的邻接用户的流失率为输出向量,并在输入向量和输出向量之间建立隐藏层进行训练,即可训练出隐藏层向量,该隐藏层向量即为样本用户的流失相关特征。
S205,根据各商户的拓扑特征及流失相关特征,确定各商户的商户特征。
该步骤中,根据商户的拓扑特征和流失相关特征确定各商户的商户特征时,可结合商户的拓扑特征和流失相关特征,以获得一个综合特征,并将该综合特征确定为商户的商户特征。
较为简单的综合方法中,可将拓扑特征和流失相关特征直接拼接得到综合特征。例如,拓扑特征为向量(1,1),流失相关特征为向量(2,2),则拼接拓扑特征和流失相关特征之后,可得到综合特征特征为(1,1,2,2)。
S206,根据各商户的商户特征确定待预测商户的流失风险级别。
在执行S206时,可采用如下两种不同的方法来确定待预测商户的流失风险级别。
方法一、包括如下D1-D4:
D1,根据各商户的商户特征对各商户进行聚类,得到至少一个商户群组。
其中,对各商户进行聚类时,可将具有相似的商户特征的商户聚类至同一商户群组中。
若某两个商户之间的距离较为紧密,则认为这两个商户的商户特征相似;反之,若某两个商户之间的距离较为疏远,则认为这两个商户的商户特征不相似。具体的,两个商户之间具有的共同用户(即共同的交易方用户)的数量越多,这两个商户之间的距离越紧密;反之,两个商户之间具有的共同用户的数量越少,这两个商户之间的距离越疏远。
或者,商户的商户特征为向量,那么针对某两个商户,可通过计算这两个商户的商户特征向量之间的距离值(如欧氏距离),来确定这两个商户之间的距离。具体的,两个商户的商户特征向量之间的距离值越小,说明这两个商户之间的距离越紧密;反之,两个商户的商户特征向量之间的距离值越大,说明这两个商户之间的距离越疏远。
D2,根据各商户群组中的各商户的商户类型,确定各商户群组的群组类型。其中,群组类型包括高流失风险群组或低流失风险群组。
具体的,若商户群组中属于流失类商户的商户比例高于或等于预设阈值,则确定商户群组的群组类型为高流失风险群组;若商户群组中属于流失类用户的商户比例低于预设阈值,则确定商户群组的群组类型为低流失风险群组。
D3,根据待预测商户的商户特征,确定待预测商户所在的第一商户群组。
D4,根据第一商户群组的群组类型,确定待预测商户的流失风险级别。
具体的,若第一商户群组的群组类型为高流失风险群组,则确定待预测商户的流失风险级别为高流失风险级别;若第一商户群组的群组类型为低流失风险群组,则确定待预测商户的流失风险级别为低流失风险级别。
方法二、包括如下E1-E3:
E1,对各商户的商户特征及各商户的商户类型进行训练,得到预测模型。
该步骤中,可采用任一种现有的机器学习分类方法训练预测模型,如二分类模型训练方法。其中,预测模型包括商户特征对应的商户属于流失类商户的第一概率,和/或,商户特征对应的商户属于留存类商户的第二概率。
E2,将待预测商户的商户特征作为预测模型的输入数据,确定待预测商户的商户特征对应的第一概率和/或第二概率。
其中,待预测商户的商户特征对应的第一概率即为待预测商户属于流失类商户的概率,待预测商户的商户特征对应的第二概率即为待预测商户属于留存类商户的概率。
E3,根据待预测商户的商户特征对应的第一概率和/或第二概率,确定待预测商户的流失风险级别。
由上述实施例可看出,该技术方案无论采取方法一、方法二中的任一种方法,均可准确、高效地预测出商户的流失风险,从而提供准确的流失预警,增强相关业务决策。
综上,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
以上为本说明书一个或多个实施例提供的用户流失预测方法,基于同样的思路,本说明书一个或多个实施例还提供一种用户流失预测装置。
图6是根据本说明书一实施例的一种用户流失预测装置的示意性框图,如图6所示,用户流失预测装置600包括:
获取模块610,用于针对多个样本用户,获取各样本用户的相关交易信息;其中,相关交易信息包括样本用户的第一用户信息、与样本用户进行交易的交易方用户的第二用户信息、交易时间、交易金额中的至少一项;
第一确定模块620,用于根据相关交易信息,确定各样本用户的用户特征及用户类型;其中,用户类型包括流失类用户或留存类用户;
第二确定模块630,用于根据各样本用户的用户特征及所用户类型,确定待预测用户的流失风险级别。
在一个实施例中,第二确定模块630包括:
聚类单元,用于根据各样本用户的用户特征,对各样本用户进行聚类,得到至少一个用户群组;
第一确定单元,用于根据各用户群组中的各样本用户的用户类型,确定各用户群组的群组类型;群组类型包括高流失风险群组或低流失风险群组;
第二确定单元,用于根据待预测用户的用户特征,确定待预测用户所在的第一用户群组;
第三确定单元,用于根据第一用户群组的群组类型,确定待预测用户的流失风险级别。
在一个实施例中,第一确定单元还用于:
若用户群组中属于流失类用户的样本用户的比例高于或等于预设阈值,则确定用户群组的群组类型为高流失风险群组;
若用户群组中属于流失类用户的样本用户的比例低于预设阈值,则确定用户群组的群组类型为低流失风险群组。
在一个实施例中,第一确定单元还用于:
根据各样本用户的用户类型,确定样本用户的第一流失率;其中,第一流失率指属于流失类用户的样本用户占所有样本用户的比率;
确定第一流失率为预设阈值。
在一个实施例中,第三确定单元还用于:
若第一用户群组的群组类型为高流失风险群组,则确定待预测用户的流失风险级别为高流失风险级别;
若第一用户群组的群组类型为低流失风险群组,则确定待预测用户的流失风险级别为低流失风险级别。
在一个实施例中,第二确定模块630包括:
模型训练单元,用于对各样本用户的用户特征及各样本用户的用户类型进行训练,得到预测模型;预测模型包括用户特征对应的样本用户属于流失类用户的第一概率,和/或,用户特征对应的样本用户属于留存类用户的第二概率;
第四确定单元,用于将待预测用户的用户特征作为预测模型的输入数据,确定待预测用户的用户特征对应的第一概率和/或第二概率;
第五确定单元,用于根据待预测用户的用户特征对应的第一概率和/或第二概率,确定待预测用户的流失风险级别。
在一个实施例中,第一确定模块620包括:
第六确定单元,用于根据相关交易信息,确定各样本用户和交易方用户之间的交易关系;
第七确定单元,用于根据交易关系,确定各样本用户之间的关联关系;其中,与相同交易方用户具有交易关系的多个样本用户之间具有关联关系;
第八确定单元,用于根据各样本用户和与其相邻的邻接用户之间的关联关系,确定各样本用户的拓扑特征;
第九确定单元,用于根据拓扑特征确定各样本用户的用户特征。
在一个实施例中,关联关系包括各样本用户之间具有的相同交易方用户的数量;
相应的,第八确定单元还用于:
根据各样本用户和与其相邻的邻接用户之间具有的相同交易方用户的数量,确定各样本用户和邻接用户之间的距离参数值;其中,距离参数值与样本用户和邻接用户之间具有的相同交易方用户的数量成正比;
根据距离参数值,确定各样本用户的拓扑特征。
在一个实施例中,第一确定模块620包括:
特征训练单元,用于确定各样本用户的拓扑特征之后,将样本用户的拓扑特征作为输入向量、将邻接用户的第二流失率作为输出向量进行训练,以训练出样本用户的流失相关特征;其中,第二流失率指属于流失类用户的邻接用户占所有邻接用户的比率;
相应的,第九确定单元还用于:
根据拓扑特征和/或流失相关特征,确定各样本用户的用户特征。
采用本说明书一个或多个实施例的装置,通过获取各样本用户的相关交易信息(包括样本用户的用户信息、交易方用户的用户信息、交易时间、交易金额中的至少一项),并根据相关交易信息确定各样本用户的用户特征及用户类型(包括流失类用户或留存类用户),进而根据各样本用户的用户特征及用户类型确定待预测用户的流失风险级别。可见,该技术方案能够结合样本用户的用户特征及用户类型来确定待预测用户的流失风险级别,也就是说,在预测待预测用户的流失风险级别时,能够挖掘出样本用户的与流失相关的潜在特征,进而利用该潜在特征预测出待预测用户是否有流失风险,大大提高了流失风险预测的准确率,从而为用户提供准确的流失预警,增强相关业务决策。
本领域的技术人员应可理解,上述用户流失预测装置能够用来实现前文所述的用户流失预测方法,其中的细节描述应与前文方法部分描述类似,为避免繁琐,此处不另赘述。
基于同样的思路,本说明书一个或多个实施例还提供一种用户流失预测设备,如图7所示。用户流失预测设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器701和存储器702,存储器702中可以存储有一个或一个以上存储应用程序或数据。其中,存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对用户流失预测设备中的一系列计算机可执行指令。更进一步地,处理器701可以设置为与存储器702通信,在用户流失预测设备上执行存储器702中的一系列计算机可执行指令。用户流失预测设备还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口704,一个或一个以上输入输出接口705,一个或一个以上键盘706。
具体在本实施例中,用户流失预测设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对用户流失预测设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
针对多个样本用户,获取各所述样本用户的相关交易信息;其中,所述相关交易信息包括所述样本用户的第一用户信息、与所述样本用户进行交易的交易方用户的第二用户信息、交易时间、交易金额中的至少一项;
根据所述相关交易信息,确定各所述样本用户的用户特征及用户类型;其中,所述用户类型包括流失类用户或留存类用户;
根据各所述样本用户的用户特征及所用户类型,确定待预测用户的流失风险级别。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
根据各所述样本用户的用户特征,对各所述样本用户进行聚类,得到至少一个用户群组;
根据各所述用户群组中的各所述样本用户的用户类型,确定各所述用户群组的群组类型;所述群组类型包括高流失风险群组或低流失风险群组;
根据所述待预测用户的用户特征,确定所述待预测用户所在的第一用户群组;
根据所述第一用户群组的群组类型,确定所述待预测用户的流失风险级别。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
若所述用户群组中属于所述流失类用户的样本用户的比例高于或等于预设阈值,则确定所述用户群组的群组类型为所述高流失风险群组;
若所述用户群组中属于所述流失类用户的样本用户的比例低于所述预设阈值,则确定所述用户群组的群组类型为所述低流失风险群组。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
根据各所述样本用户的用户类型,确定所述样本用户的第一流失率;其中,所述第一流失率指属于所述流失类用户的样本用户占所有样本用户的比率;
确定所述第一流失率为所述预设阈值。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
若所述第一用户群组的群组类型为所述高流失风险群组,则确定所述待预测用户的流失风险级别为高流失风险级别;
若所述第一用户群组的群组类型为所述低流失风险群组,则确定所述待预测用户的流失风险级别为低流失风险级别。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
对各所述样本用户的用户特征及各所述样本用户的用户类型进行训练,得到预测模型;所述预测模型包括所述用户特征对应的样本用户属于所述流失类用户的第一概率,和/或,所述用户特征对应的样本用户属于所述留存类用户的第二概率;
将所述待预测用户的用户特征作为所述预测模型的输入数据,确定所述待预测用户的用户特征对应的所述第一概率和/或所述第二概率;
根据所述待预测用户的用户特征对应的所述第一概率和/或所述第二概率,确定所述待预测用户的流失风险级别。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
根据所述相关交易信息,确定各所述样本用户和所述交易方用户之间的交易关系;
根据所述交易关系,确定各所述样本用户之间的关联关系;其中,与相同交易方用户具有所述交易关系的多个所述样本用户之间具有所述关联关系;
根据各所述样本用户和与其相邻的邻接用户之间的关联关系,确定各所述样本用户的拓扑特征;
根据所述拓扑特征确定各所述样本用户的用户特征。
可选地,所述关联关系包括各所述样本用户之间具有的相同交易方用户的数量;
相应的,计算机可执行指令在被执行时,还可以使所述处理器:
根据各所述样本用户和与其相邻的邻接用户之间具有的相同交易方用户的数量,确定各所述样本用户和所述邻接用户之间的距离参数值;其中,所述距离参数值与所述样本用户和所述邻接用户之间具有的相同交易方用户的数量成正比;
根据所述距离参数值,确定各所述样本用户的拓扑特征。
可选地,计算机可执行指令在被执行时,还可以使所述处理器:
所述确定各所述样本用户的拓扑特征之后,将所述样本用户的拓扑特征作为输入向量、将所述邻接用户的第二流失率作为输出向量进行训练,以训练出所述样本用户的流失相关特征;其中,所述第二流失率指属于所述流失类用户的所述邻接用户占所有所述邻接用户的比率;
相应的,计算机可执行指令在被执行时,还可以使所述处理器:
根据所述拓扑特征和/或所述流失相关特征,确定各所述样本用户的用户特征。
本说明书一个或多个实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行上述用户流失预测方法,并具体用于执行:
针对多个样本用户,获取各所述样本用户的相关交易信息;其中,所述相关交易信息包括所述样本用户的第一用户信息、与所述样本用户进行交易的交易方用户的第二用户信息、交易时间、交易金额中的至少一项;
根据所述相关交易信息,确定各所述样本用户的用户特征及用户类型;其中,所述用户类型包括流失类用户或留存类用户;
根据各所述样本用户的用户特征及所用户类型,确定待预测用户的流失风险级别。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。