发明内容
本申请提供了数据处理方法及电子设备,能够为育商项目提供可短期观测的指标,帮助系统获得期望的育商效果。
本申请提供了如下方案:
一种数据处理方法,包括:
获取目标模型,所述目标模型通过以下方式获得:从至少一个观测时间点对多个商家用户的历史行为数据进行统计获得的多个维度上的特征,以及以所述观测时间点为起点的未来时间周期内所述多个商家用户分别对应的价值贡献情况,以所述多个商家分别对应的特征值作为训练输入数据,并以所述价值贡献情况作为训练目标,进行模型训练以得到所述目标模型;
确定当前预测周期内需要进行价值预测的目标商家用户,并以当前预测时刻为起点对目标商家用户的历史行为数据进行统计获得的多个维度上的特征;
以所述目标商家用户对应的特征值作为所述目标模型的输入数据,对以所述当前预测时刻为起点的未来时间周期内所述目标商家用户的价值贡献情况进行预测,以便根据价值贡献情况预测结果,对目标项目/动作进行决策或优化。
其中,根据商家用户可获得的服务类别的不同,将所述价值贡献情况划分为多个价值贡献分量,并分别对应不同的目标模型,以便针对不同的目标模型分别进行特征维度的选择和/或特征维度的重要性排序,以完成模型的训练。
其中,所述服务类别包括会员服务,对应的价值贡献情况为:商家用户通过续签成为系统会员,为系统所做出的价值贡献情况;
所述会员服务对应的目标模型包括:具有级联关系的第一分类模型以及第二分类模型,所述第一分类模型用于预测商家用户在未来目标时间周期内的续签概率,以商家用户未来目标时间周期内完成续签为目标进行训练;所述第二分类模型用于预测商家用户在续签时是否会发生会员等级变迁的概率,以商家用户在未来目标时间周期内进行续签时的会员等级是否发生变迁为目标进行训练。
其中,所述具有级联关系的第一分类模型以及第二分类模型为多组,对应不同的目标商家用户当前所处的多个不同的会员等级。
其中,所述服务类别包括信息推广服务,对应的价值贡献情况为:商家用户通过使用系统提供的信息推广服务,为系统所做出的价值贡献情况;
所述信息推广服务对应的目标模型包括:对应多种不同信息推广服务类型的多个回归模型,以商家用户在未来时间周期内在使用对应类型的信息推广服务过程中所产生的资源消耗为目标进行训练。
其中,所述信息推广服务类型包括:产生的资源消耗与消费者用户的点击情况相关的信息推广服务类型,对应的回归模型包括:通过级联的方式堆叠多层随机森林的深度结构模型。
其中,所述服务类别包括跨境供应链服务,对应的价值贡献情况为:商家用户通过使用系统提供的跨境供应链服务,为系统所做出的价值贡献情况;
所述跨境供应链服务对应的目标模型包括:对应多种不同跨境供应链服务类型的多个回归模型,以商家用户在未来时间周期内在使用对应类型的跨境供应链服务过程中所产生的资源消耗为目标进行训练。
其中,所述跨境供应链服务类型包括:与交易订单有关的跨境供应链服务类型,以及与交易订单无关的跨境供应链服务类型;其中,所述与交易订单有关的跨境供应链服务类型还根据所产生的资源消耗与交易订单是否一一对应,划分为多个子类型。
其中,在为所述跨境供应链服务对应的目标模型获取训练样本的过程中,或者在针对目标商家用户进行价值预测过程中,获取该目标商家用户在多个维度上的特征的过程中,对于关联有时间窗口的维度,确定对应时间窗口内所产生的与跨境供应链服务相关的多笔资源消耗的时间分布情况,以及与所述观测时间点或当前预测时刻之间的距离,并为所述多笔资源消耗确定不同的时间衰减系数后,确定在对应维度上的特征。
其中,基于因果分析的方法,为所述跨境供应链服务对应的目标模型进行特征维度的选择和/或特征维度的重要性排序。
其中,在目标模型获取训练样本的过程中,分别为每个商家用户确定多个观测时间点,以便针对同一商家用户在多个不同的观测时间点获得多份训练样本,以用于进行模型训练;其中,同一商家用户对应的多个观测时间点,在不同的子时间周期之间平均分布,并在同一子时间周期内具有随机性。
其中,在为信息推广服务对应的目标模型获取训练样本的过程中,针对同一商家用户在不同观测时间点对应的多份训练样本,构造时间维度上的特征,所述时间维度上的特征包括:所述观测时间点所处的子时间周期是否关联有目标营销活动,所述观测时间点与目标营销活动开始或结束时间的距离,和/或所述观测时间点所处的子时间周期的标识。
其中,所述确定当前预测周期内需要进行价值预测的目标商家用户,包括:
在对目标项目/动作进行AB测试的过程中,从参加AB测试的两个商家用户群体中确定所述目标商家用户,其中,针对不同商家用户群体上线不同的目标项目/动作,或者,针对其中一商家用户群体上线目标目标项目/动作,另一商家用户群体未上线该目标目标项目/动作;
所述方法还包括:
根据同一用户群体中的各目标商家用户分别对应的未来时间周期内的价值贡献情况预测结果进行聚合,确定同一目标项目/动作在未来时间周期内可获得的育商效果的预测结果,以便通过对比不同目标项目/动作之间的预测结果,进行目标项目/动作的选择或决策。
其中,还包括:
根据所述目标商家用户对应的价值贡献情况的预测结果,获取所述目标模型中各特征在影响该目标商家用户的预测结果方面的重要程度及影响方向;
根据所述重要程度及影响方向确定可作为优化所述预测结果的潜力因素的第一目标特征,和/或用于可作为优化所述预测结果的风险因素的第二目标特征;
根据所述第一目标特征和/或第二目标特征,向所述目标商家用户和/或为所述目标商家用户提供育商服务的服务人员提供目标项目/动作的优化建议信息。
一种数据处理装置,包括:
模型获取单元,用于获取目标模型,所述目标模型通过以下方式获得:从至少一个观测时间点对多个商家用户的历史行为数据进行统计获得的多个维度上的特征,以及以所述观测时间点为起点的未来时间周期内所述多个商家用户分别对应的价值贡献情况,以所述多个商家分别对应的特征值作为训练输入数据,并以所述价值贡献情况作为训练目标,进行模型训练以得到所述目标模型;
特征获取单元,用于确定当前预测周期内需要进行价值预测的目标商家用户,并以当前预测时刻为起点对目标商家用户的历史行为数据进行统计获得的多个维度上的特征;
预测单元,用于以所述目标商家用户对应的特征值作为所述目标模型的输入数据,对以所述当前预测时刻为起点的未来时间周期内所述目标商家用户的价值贡献情况进行预测,以便根据价值贡献情况预测结果,对目标项目/动作进行决策或优化。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述的方法的步骤。
一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以从至少一个观测时间点对多个商家用户的历史行为数据进行统计获得的多个维度上的特征,以及以所述观测时间点为起点的未来时间周期内所述多个商家用户分别对应的价值贡献情况,然后,以所述多个商家分别对应的特征值作为训练输入数据,并以所述价值贡献情况作为训练目标,进行模型训练以得到目标模型。之后,可以确定当前预测周期内需要进行价值预测的目标商家用户,并以当前预测时刻为起点对目标商家用户的历史行为数据进行统计获得的多个维度上的特征,然后,可以以所述目标商家用户对应的特征值作为所述目标模型的输入数据,对以所述当前预测时刻为起点的未来时间周期内所述目标商家用户的价值贡献情况进行预测,以便根据价值贡献情况预测结果,对目标项目/动作进行决策或优化。由于每一个目标项目/动作的执行都可能会影响商家用户未来对系统的价值贡献情况,因此,通过本申请实施例提供的方式,使得这种影响得到量化表达,从而为育商项目提供了灵敏的、可短期观测的指标,从而可以帮助运营服务人员在进行育商项目的选择决策时获得数据上的支持,也可以在发现对未来的价值贡献情况产生负向的影响时,及时优化或者调整现有的育商项目,从而帮助系统获得期望的育商效果。
其中,在优选的实施方式下,可以将商家价值贡献情况划分为多个价值贡献分量,并分别对应不同的目标模型,从而可以针对不同的目标模型分别进行特征维度的选择和/或特征维度的重要性排序,以完成模型的训练,从而提升模型的准确度。
在构造训练样本方面,通过针对每个商家用户在每个月随机选择一天作为观测时间点等方式,可以使得同一商家用户产生多条训练样本数据,从而提升样本的丰富度以及模型的泛化能力。
对于会员服务方面的价值贡献分量,采用了具有级联关系的第一分类模型以及第二分类模型进行组合的方案,使得每个模型都可以是一个二分类模型,有利于降低模型的预测难度,提升模型准确度。
对于信息推广服务方面的价值贡献分量,针对其中产生的资源消耗与消费者用户的点击情况相关的信息推广服务类型,可以通过级联的方式堆叠多层随机森林的深度结构模型,以弥补样本量不足,特征缺失等情况下带来的准确度问题。另外,针对同一商家用户在不同观测时间点对应的多份训练样本,还可以构造时间维度上的特征,以此抹平不同观测时间点之间的差异。
对于跨境供应链服务方面的价值贡献分量,可以通过基于牛顿冷却定律的时间衰减系数等方式,对关联有时间窗口的特征维度,确定出对应时间窗口内所产生的与跨境供应链服务相关的多笔资源消耗的时间分布情况,以及与所述观测时间点或当前预测时刻之间的距离,并为所述多笔资源消耗确定不同的时间衰减系数后,确定在对应维度上的特征。这样可以体现出具体消耗产生的不同时间对商家用户未来在对应方面产生消耗的趋势的不同影响,以此进一步提升模型的准确度。
在应用方面,可以通过AB测试等方式,在不同育商项目获得的未来时间周期内的价值贡献情况进行对比,从而对育商项目做出选择,或者为某育商项目是否可以正式上线发布等做出决策。
还可以根据所述目标商家用户对应的价值贡献情况的预测结果,获取所述目标模型中各特征在影响该目标商家用户的预测结果方面的重要程度及影响方向,以此来识别商家用户的问题,帮助商家诊断和商家运营,提升商家经营效果。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,首先可以为商家成长计划(目标项目/动作)提供可短期观测的指标。具体的,由于育商的成果最终体现在商家为系统带来的价值提升上,而当前的育商运营动作,会影响未来的育商成果(包括会员到期后是否续签,等等)。因此,在本申请实施例中,可以基于大量商家用户的历史行为数据进行模型训练,以用于预测具体商家用户在未来一定时间周期(例如,未来一年,等等)内可为系统带来的价值贡献情况。该价值贡献情况具体可以称为商家用户的LTV(Life time value,客户生命周期价值)。多个商家用户的LTV预测结果聚合在一起,则可以用于衡量某项商家成长计划的效果。例如,在执行某商家成长计划的过程中,预测出了多个商家用户在未来时间周期内的LTV,则多个商家用户的LTV预测结果进行聚合之后,则可以用于代表该商家成长计划可能产生的效果。这种预测可以以“天”甚至更短的时间为周期来进行,因此,具体的指标可以是动态值,每此运营动作的执行,都可能会带来指标数值的变化,以此更灵敏地反映出具体运营动作的效果,从而帮助运营人员确定具体的运营动作是否有效,是否应该继续执行还是中断,或者在原有基础上进行优化,等等。另外,还可以通过模型的shap值(用于代表各特征在影响具体商家用户的预测结果方面的重要程度及影响方向)来识别商家用户的问题,帮助商家诊断和商家运营,提升商家经营效果。
其中,在进行商家LTV的预测时,可以根据多个商家的历史行为数据获取到训练样本,在获取训练样本时,可以选择某观测时间点,对多个商家用户的历史行为数据进行统计获得多个维度上的特征,另外可以获取到以该观测时间点为起点的未来时间周期(例如,未来一年)内多个商家用户分别对应的价值贡献情况(例如,在未来一年内在使用系统提供的服务方面所投入的资源情况),然后,可以以多个商家分别对应的特征值作为训练输入数据,并以对应的价值贡献情况作为训练目标,进行模型训练以得到目标模型。然后,具体在对商家用户进行预测时,可以以当前预测时刻为起点对目标商家用户的历史行为数据进行统计获得的多个维度上的特征,然后,以目标商家用户对应的特征值作为所述目标模型的输入数据,对以所述当前预测时刻为起点的未来时间周期内所述目标商家用户的价值贡献情况进行预测,例如,预测出当前商家用户在未来一年内在使用系统提供的各种服务方面的资源投入情况会是怎样,等等。
但是,由于在进行模型训练时,特征工程是很重要的一个环节。也即,用户历史行为数据中可以统计出的特征可能会非常多,但可能其中部分特征对于模型训练是有效的,并且,不同特征对模型训练所起到的重要程度也可能会不同,如何更准确地进行特征选择以及重要性排序,对于最终训练出的模型的预测准确度具有重要的影响。
而在本申请实施例中,由于商家用户在使用系统所提供的服务过程中所投入的资源成本的构成可能会比较复杂,例如,既有会员服务方面的投入,又有信息推广服务方面的投入,还有对供应链服务方面的投入,商家用户在每个方面的投入情况对应的影响因素都很复杂。在这种情况下,如果用一个模型完成对商家LTV的预测几乎是不可实现的。
为此,在本申请实施例中,首先可以根据商家用户可获得的服务类别的不同,将所述价值贡献情况划分为多个价值贡献分量,并分别对应不同的目标模型,这样,可以针对各种不同的分量的数据特点,选择不同类型的模型(例如,可以包括分类模型,回归模型等),还可以针对不同的目标模型分别进行特征维度的选择和/或特征维度的重要性排序,以完成模型的训练,以此降低模型训练的难度,提升模型的准确度。
例如,对于某系统而言,假设具体为商家用户提供的服务类别概括起来主要分为:商家会员服务(这通常是基础的服务)、信息推广服务和供应链服务。商家对平台的主要价值贡献,也是会反映在这三个方面。并且,本申请实施例的目的是从更全局的视角来看待商家用户在系统中的价值,避免陷入局部优化。因此商家用户的LTV值由商家会员服务使用费(会员服务LTV)、信息推广服务使用费(信息推广服务LTV)、供应链服务使用费(供应链服务LTV)三部分构成。这样,可以分别针对各项LTV分类训练不同的模型,在进行特征选择以及重要性排序时,都可以针对不同的模型分别单独进行。也即,对于同一商家用户,可以分别通过多个不同的模型预测出多个分量的LTV值,再将各个分量相加,得到商家用户的综合LTV值。也即:
商家用户LTV=会员服务LTV+信息推广服务LTV+供应链服务TLV
这样,从系统架构角度而言,可以如图1所示,通过多种模型分别会员服务LTV、信息推广服务LTV、供应链服务TLV进行预测,模型可以包括分类模型、回归模型等。在得到各个LTV分量以及综合的LTV值之后,可以有多种应用。例如,其中一种应用可以是通过AB测试等方式,对使用某育商项目与不使用育商项目的用户群体,分别获得的LTV值进行对比,来获取该育商项目可能获得的效果。或者,还可以针对使用育商项目A与育商项目B的用户群体,通过分别获得的LTV值,来对比两个育商项目的效果,以用于从中选择其中一个在继续执行,等等,这样可以帮助运营对育商项目进行决策。另外,还可以提供LTV数据看板,来跟踪LTV的变化,在发现LTV数值有所下降时,可以及时优化具体的方案等等。此外,LTV诊断模块还可以基于LTV预测模型的预测结果和shap值,输出影响商家用户最终LTV值的潜在因素或者风险因素等,还可以以任务等形式提供给商家工作台或者运营工作台,以指导商家用户或者运营人员针对具体因素上进行及时改善或者进一步加强,等等。
下面对本申请实施例提供的具体实现方案进行详细介绍。
首先,本申请实施例提供了一种数据处理方法,参见图2,该方法可以包括:
S201:获取目标模型,所述目标模型通过以下方式获得:从至少一个观测时间点对多个商家用户的历史行为数据进行统计获得的多个维度上的特征,以及以所述观测时间点为起点的未来时间周期内所述多个商家用户分别对应的价值贡献情况,以所述多个商家分别对应的特征值作为训练输入数据,并以所述价值贡献情况作为训练目标,进行模型训练以得到所述目标模型。
关于模型的训练方面的具体实现,可以参见后文中的介绍。
S202:确定当前预测周期内需要进行价值预测的目标商家用户,并以当前预测时刻为起点对目标商家用户的历史行为数据进行统计获得的多个维度上的特征。
在本申请实施例中,具体在训练完成模型后,可以采用周期性执行的方式,对各商家用户的LTV值进行预测,例如,具体可以是每天为一个周期,等等。在每个预测周期中,都可以首先确定出当前预测周期内需要进行价值预测的目标商家用户,并以当前预测时刻为起点对目标商家用户的历史行为数据进行统计获得的多个维度上的特征。
其中,关于当前预测周期内需要进行价值预测的目标商家用户,在一般情况下,可以是指入驻到当前系统或者成为系统会员的全部商家用户,也即,只要具体的商家用户入驻到系统中,或者成为系统会员,在系统中有相关的行为数据产生,都可以进行LTV的预测。当然,对于会员服务相关的LTV预测,模型的作用主要是预测商家用户在未来时间周期内的续签概率等,但是由于存在部分两年签且当前处于第一服务期的商家用户,对于这部分商家用户,可能不需要通过模型对其在未来一年内的续签情况进行预测,对此,后文中会有详细介绍。
S203:以所述目标商家用户对应的特征值作为所述目标模型的输入数据,对以所述当前预测时刻为起点的未来时间周期内所述目标商家用户的价值贡献情况进行预测,以便根据价值贡献情况预测结果,对目标项目/动作进行决策或优化。
也就是说,在本申请实施例中,可以根据多个商家的历史行为数据进行特征挖掘,并进行模型训练,这样,可以通过具体训练出的模型来预测商家在未来时间周期内对系统带来的价值贡献情况,该预测结果可以用于进行育商项目的决策、优化等等。其中,如前文所述,由于商家的价值贡献情况的构成可能会比较复杂,并且具体影响商家用户价值贡献的因素也非常复杂,因此,在优选的实施方式下,可以根据商家用户可获得的服务类别的不同,将所述价值贡献情况划分为多个价值贡献分量,并分别通过不同的目标模型进行预测,这样,可以根据各种分量分别进行模型的选择,以及针对不同的目标模型分别进行特征维度的选择和/或特征维度的重要性排序。
具体的,在一种具体的实现方式下,商家用户的LTV值可以有会员服务LTV、信息推广服务LTV、供应链服务LTV等三部分构成,下面分别进行介绍。
(一)会员服务LTV
关于会员服务LTV,也即针对系统为商家用户提供的会员服务这一服务类别,商家用户在使用这种服务时,通过续签成为系统会员的方式为系统带来的价值贡献情况。
其中,商家用户在使用会员服务时,按照签约方式,可以分为新签和续签两种。新签表示商家第一次成为某系统会员(不考虑断约再购买的情况),续签表示商家已经是系统的会员,在服务完一个服务周期后,继续购买会员产品。另外,根据商家用户的调研反馈显示,商家用户更加愿意为系统价值(询盘/订单等)买单。因此,商家从系统获得的服务效果越好,续签的概率越高(销售人员的服务很重要,但不是决定性因素)。也即,续签也表示商家用户认可当前的会员身份,并且商家用户一般会根据平台效果而作出续签决定。因此,可以通过商家用户的会员续签情况,来衡量具体育商项目的效果。这样,针对会员服务LTV的预测,核心是针对会员服务的续签率的预测。
但是,系统中还可能多种不同会员等级的服务,商家用户在新签时可以选择其中一种等级;在续签时可以继续保持之前的等级不变,也可能会出现会员等级变迁情况,这些情况的存在都导致用商家用户续签率的预测具有比较高的难度。
例如,对于具体的会员等级而言,一个系统提供的会员等级可能包括普通会员、高级会员等。其中,商家用户在购买不同等级的会员产品时,最终在系统中获得的服务效果也不一样。例如,对于普通会员,系统可以提供一站式的店铺装修、产品展示、营销推广、生意洽谈及店铺管理等全系列线上服务和工具,帮助企业降低成本、高效率地开拓外贸大市场。对于高级会员而言,系统则可以通过线上线下结合的方式,对商家的企业资质、商品资质、企业能力等全方位实力进行认证验真和实力透传,除享有普通会员全部权益和服务外,高级会员还可以享有专属营销权益、专属前台场景及丰富工具权益,等等。这种不同会员等级与服务内容之间的差别,导致商家群体之间的续签率也是有差异的。
会员等级变迁则表示商家用户在续签时,可以继续保留当前会员等级,或者也可以根据情况决定变更为另一种会员等级。例如,在续签的过程中,普通会员的商家在符合系统要求的情况下可升级为高级会员,同样的,高级会员也可以根据自身运营情况转为普通会员,等等。会员等级变迁的影响因素较为复杂,通常商家用户会根据自身的投入和系统效果等来综合决定是否升级或者降级。其中,普通会员升级到高级会员的影响因素,与高级会员降级为普通会员的影响因素又有所不同。
综上可见,对于会员服务LTV的预测,可能面临以下难点及挑战:
1、情况复杂,影响商家续签的因素众多且繁杂,理论上整个系统全流程各环节对商家续签均有影响,因此对于特征收集与特征工程是一大挑战。
2、普通会员与高级会员在特征上的区分度不高,差异不大,很多特征上普通会员会比高级会员表现更好,为模型准确识别普通会员与高级会员带来了困难。
3、商家来平台的时间周期差别很大,有服务十多年的商家,也存在大量服务不满一年,甚至不到3个月的商家,因此,可能存在数据稀疏的问题,这也可能在很大程度上影响模型的准确率。
针对以上困难及挑战,首先可以分别去关注不同商家群体的效果,关注他们的续签率,以及会员等级变迁的概率。然后,通过不同商家群体的LTV值,求和计算出商家会员整体的LTV值。
例如,假设系统中的会员等级分为普通会员以及高级会员这两个级别,高级会员的会员费为Cas,普通会员的会员费为Cgs。
如果当前商家是高级会员,当前商家服务到期后继续签约为高级会员的概率为ras,服务到期后降级为普通会员的概率rgs,那么这个商家的会员服务LTV就是:
LTV单个高级会员商家=Casras+Cgsrgs (1)
如果当前商家是普通会员,当前商家服务到期后签约普通会员的概率为Pgs,服务到期后升级为高级会员的概率Pas,那么这个商家的会员服务LTV就是:
LTV单个普通会员商家=CasPas+CgsPgs (2)
这里需要说明的是,若商家在服务到期前已经完成续签(假设提前续约日期为A,商家的服务到期日期为B),那么从A到B的这段时间,因为已经完成续签,不需要再进行预测,因此对应的续签概率可以为1。过了日期B之后,如果商家仍未续约,则该商家可以自动被识别为要在下个财年续签的客户,LTV的值也会随之调整。
从上面会员等级及变迁情况分析中可知,商家的会员等级不同,且在续签时会员等级是可变化的。针对不同的会员等级之间的差异性,以及商家续签时会员等级变迁的可能性,以及不同会员等级的用户容易预测混淆等特点,在本申请的优选实施方式中,可以将会员服务对应的目标模型分为:具有级联关系的第一分类模型以及第二分类模型,所述第一分类模型用于预测商家用户在未来目标时间周期内的续签概率,以商家用户未来目标时间周期内完成续签为目标进行训练;所述第二分类模型用于预测商家用户在续签时是否会发生会员等级变迁的概率,以商家用户在未来目标时间周期内进行续签时的会员等级是否发生变迁为目标进行训练。也就是说,通过这种划分,关于会员服务LTV,变成分类问题,因此,主要任务就是对多个分类模型的训练,而分类模型的训练是相对简单的,并且,可以单独为每个模型进行特征选择与参数调整,因此,有利于获得较高的模型准确度。
其中,关于具有级联关系的第一分类模型以及第二分类模型还可以为多组,对应不同的目标商家用户当前所处的多个不同的会员等级。例如,在前述将会员等级分为普通会员以及高级会员两种等级的情况下,可以将需要预测的商家用户分为普通会员商家和高级会员商家这样两个群体,分别用级联的模式来预测商家续签某种会员的概率。为此,可以设计了4个模型,如图3所示。其中,针对普通会员商家,对应其中的两个模型,他们都是二分类模型。其中,LTV模型1:主要是判断普通会员商家在未来时间周期(例如,未来一年)是否会续签(这时候还不能确定他会续签那种会员等级)。如果断约,那就是系统的直接损失。如果是续签,则可以再进一步通过算法模型,预测他续约不同会员等级的具体概率。LTV模型2就是在预测出商家不会断约的前提下,进一步通过这个模型来预测普通会员商家续约不同会员等级的具体概率,包括继续保留普通会员身份的概率,以及升级为高级会员的概率。
通过这两个模型的预测计算后,可以得到三个概率值:
p1:普通会员商家直接断约的概率。
p2:普通会员商家升级成高级会员的概率。
p3:普通会员商家继续续约普通会员的概率。
在任何情况下,期望的是p1+p2+p3=1。
具体细节:模型1预测为正样本(续约)的概率是p11,模型2预测为正样本的概率(续约为高级会员)为p12,则p1=1-p11;p2=p11*p12;p3=p11*(1-p12)。
对于LTV模型3、以及LTV模型4,与上述LTV模型1、LTV模型2的情况类似,这里不再赘述。
在完成了模型选择之后,还涉及到特征工程方面的问题。如前文所述,在本申请实施例中,需要使用商家的历史行为数据对模型进行训练,这种历史行为数据不仅包括在多个维度上的特征,包括最近60天的回访次数等等,还需要包括标签信息,例如,我们的目标是要预测商家在未来的合同到期日之前是否会续签,则训练样本中,各条数据还需要分别带有各自的标签,用于表示对应的商家在未来的合同到期日之前是否进行了续签,是否发生了会员等级的变迁,等等。因此,在构造训练样本时,对商家入驻时间上也会有要求。例如,需要选择入驻时间超过一个服务周期的商家用户,这样才能使得其在一个服务周期结束时的续签情况是已知的,等等。但是,由于系统中的商家数量本来就是很有限的,再去掉一些新入驻的商家,就使得样本稀疏的问题更加凸显。
为此,在本申请的优选实施方式中,可以采用以下方式进行样本构造:分别为每个商家用户确定多个观测时间点,以便针对同一商家用户在多个不同的观测时间点获得多份训练样本,以用于进行模型训练;其中,同一商家用户对应的多个观测时间点,在不同的子时间周期之间可以平均分布,并在同一子时间周期内可以具有随机性。例如,具体的,子时间周期可以是一个月,这样,对于每个商家用户,采用每个月随机选择一天作为观测时间点,并以该观测时间点为起点,进行历史行为数据的统计,以及未来时间周期内的续签情况的采集。这样,一个商家用户可以对应多条数据,每条数据都可以作为一个独立的训练样本以用于模型的训练。
之所以按照每个月随机选择一天作为观测时间点的方式进行样本构造,是因为,一方面,由于在不同时间点来看,同一个商家的不同行为数据之间可以构成独立的样本,因此,对于同一商家用户而言,可以在不同的观测时间点,抽取出多条数据,组成多个不同的训练样本,以此丰富样本量。另一方面。由于本申请实施例中的预测过程通常是每天都要进行,因此,希望各种样本在每个月的每天的情况都有覆盖,因此,采用了每个月随时选择一天的方式,以此提升模型的泛化能力。再者,有很多指标在“年”的角度来看可能是周期性的,例如,每年的6月和11月由于属于“大促月”,使得在一些指标上的表现会好于其他月份。因此,通过针对同一商家用户在每个月随机选取一天的方式,也可以规避某些商家只统计某些特定的时间点造成的不准确的问题,等等。
关于正负样本的划分,可以将合同到期之日之前续签的为正样本,合同到期之日未续签和合同到期之日后续签的这种样本作为负样本。因为模型是定在合同到期日去看是否续签,因此,模型应该要有固定的判断时间节点。
在特征选择方面,由于影响商家续签的因素众多且繁杂,因此,可以预先根据权系统的服务流程,收集所有可能影响续签的因素。例如,大致可以归类为商家属性、网站活跃、商品质量、客勤、交易转化、基本权益、高级会员权益、信息推广投入与效果、履约与保障,等等。其中,各类别中可以包括多个具体的指标,例如,关于商品质量,可以包括“优品”数量、“视频品”的数量、“会展品”的数量,等等。关于客勤,可以包括最近60天内的回访次数,等等。具体实现时,具体的跨境电商系统中通常还会存在专门的“指标中心”,可以根据各种基础数据产出多种指标上的数值,因此,本申请实施例中,也可以从这种指标中心获取具体商家用户在多种维度上的特征值,对于本申请实施例中所特有的指标,还可以通过向“指标中心”进行提出需求的方式,由“指标中心”产出具体的指标数值,等等。
这样,针对各个商家用户,就可以分别根据各个观测时间点,对多个商家用户的历史行为数据进行统计,以此获取到在上述多种维度上的特征,例如,包括前述“优品”数量、“视频品”的数量、“会展品”的数量、最近60天内的回访次数,等等。这样,每条训练样本中都可以包括在上述多个维度上的特征,另外还可以包括对应的商家用户在未来的合同到期日之前是否进行了续签等标签信息,以此对模型进行训练。
这里需要说明的是,虽然本申请实施例中是对商家用户在未来某个固定时间周期(例如,未来一年)内的LTV值进行预测,并用以指导育商项目的决策或者优化,但是,仍然不希望以一个短期的或者局限的眼光去看问题。例如,如果通过一些方式使得未来一年的续签率得以提升,但是影响了下下年度的续签率,则也不是期望看到的结果。但是,在实际应用中,具体的商家在签订会员服务合同时,具体的合同周期也可能存在不同,例如,包括一年签的合同(也即,一次签约后,服务满一年时合同即到期,需要每年续签一次),还包括两年签的合同(一次签约后,服务满两年时合同才到期,两年续签一次即可),等等。而在本申请实施例中,具体预测的未来时间周期通常可以为一年,也即,把当前年度(自然年或者会计意义上的财年等)涉及到续签的商家服务好,提升续签率是本申请实施例的主要目标。但是,由于这种两年签的合同的存在,因此,在系统资源(可用于进行育商项目的资源)一定的情况下,如果把更多资源给到本年度要续签的商家,那么是否会影响下一个年度要续签的商家,是需要考虑的问题。
为此,在本申请实施例的具体实现时,进行了以下测试:在按照前述方式完成模型的训练之后,通过构造测试集,用该模型对测试集中各个商家在下下年度是否会续签、续签时的会员等级迁移等情况进行预测,结果发现,预测的准确率仍然很高。也就是说,使用同一模型对下一年、下两年甚至下三年的续签情况进行预测,其差异并不大。这也就说明,使用本申请实施例提供的上述模型对商家在会员服务方面的LTV进行预测,帮基于该预测结果进行育商项目的决策或优化,以提升下一年度的续签率等指标的过程中,并不会对下两年度或后续的续签率等造成过多影响。
另外,通过统计发现,在两年签的商家中,服务一年就断约的商家占比是非常低的,基于这个事实,在具体的模型中,可以将两年签的商家在第一年服务完后续约的概率是1。这样,可以将当前年度需要续签的商家分为:上一年度签约/续签的普通商家+上一财年签约的两年签商家(处在第一个服务期的两年签商家,默认续签率是1)+上上年度签约的两年签商家(处在第二个服务期的两年签商家)。举个例子:假如当前年度是FY22,在上一个年度FY21签约的一年签商家,到了本年度就要续签了。同理,在上上年度也即FY20签约的两年签商家,在经过一年的服务后,当前年度也要重新续签了,等等。另外,下一年度要续签的商家包括:本年度新签的商家+本年度刚完成续签的商家。
基于上述分析,在具体确定当前预测周期内需要进行价值预测的目标商家用户时,可以包括:签订了一年签合同且处于服务期的商家,以及签订了两年签合同且处于第二服务期的商家用户。对于签订了两年签合同且处于第一服务期的商家用户,将其续签概率直接置为1,且会员等级不会发生变迁即可。
其中,在训练过程中,还可以通过选择多个特征组合、特征权重等方式进行多次的训练,然后,通过构造测试集的方式,对模型的预测效果进行对比,确定出效果较佳的特征组合、特征权重,等等。
其中,具体在构造测试集时,可以随机抽取20%(或者其他比例)的商家,并保证这些商家在预测时间到合同到期时间的分布上相对均匀,首年、次年、多年商家的分布近似于真实预测环境的分布,这样做的目的是为了让模型在各个不同服务周期的商家身上都具有很好的泛化性能。
总之,在完成上述模型的训练后,针对具体需要测试的商家用户,针对单个商家用户,可以根据该商家当前的会员等级,通过上面的LTV模型,得到该商家在未来的合同到期之前进行续签的概率。如果是普通会员商家,那么得到的预测续签率值是(p2,p3)。如果是高级会员商家,得到预测续签率值(t2,t3)。然后,根据商家的会员等级和预测出的续签率值,调用上面公式(1)或者(2),即可计算出该商家的会员服务LTV值。
(二)信息推广服务LTV
信息推广服务LTV,也即针对系统为商家用户提供的信息推广服务这一服务类别,商家用户通过使用系统提供的这种服务,为系统所做出的价值贡献情况。
与会员服务不同,商家用户在使用信息推广服务时,不是一年或者两年支付一次,而是可能会涉及到持续的付费情况,因此,可以使用回归模型进行预测。另外,由于具体的信息推广服务也可能存在多种类型,商家用户在不同类型的信息推广服务方面进行投入时,具体的影响因素也会有所不同。因此,具体实现时,所述信息推广服务对应的目标模型可以包括:对应多种不同信息推广服务类型的多个回归模型,并以商家用户在未来时间周期内在使用对应类型的信息推广服务过程中所产生的资源消耗为目标进行训练。
具体的,在对信息推广服务进行分类时,可以根据具体服务的不同计费方式等,将信息推广服务划分为多种类型。例如,具体可以包括:产生的资源消耗与消费者用户的点击情况相关的信息推广服务类型,或者,与消费者用户的点击无关的类型,等等。
例如,对于前者,商家用户可以预先在相关账户中充值,并创建营销计划,高会员等级的商家还可以选择向特定国家和人群进行定向投放。当买家用户点击具体推广的商品时会产生消耗。产生消耗后,可以从商家用户的账号中进行扣款。而对于后者,主要是系统可以开放一些特定页面中的特定资源位用于进行信息推广,例如,首页中的轮播图坑位,或者,搜索结果页面中比较靠前的资源位,等等。由于这些资源位的曝光率更高,因此其价值也更高。针对这些资源位,商家用户可以通过多种竞争方式获取到通过具体资源位进行信息推广的资格。对于这种情况,无论买家用户是否对资源位有点击操作,商家用户都会产生对应的消耗,等等。可见,上述不同类型的信息推广服务,由于商家用户产生资源消耗的方式不同,因此,具体的影响因素会不同,预测的难度也会不同。
其中,对于上述与买家用户点击无关的类型,虽然商家用户可能半年或者一年支付一次即可,但是,在未来系统是否能够在这方面获得营收,与商家用户会不会继续购买对应的关键词(通常与搜索结果页面中比较靠前的坑位中展示的信息推广相关,例如,如果某商家用户购买某关键词,则在买家用户搜索该关键词时,可以在搜索结果页面中比较靠前的坑位展示该商家用户相关的信息推广内容),并且,由于商家用户可以购买不止一个词,多个方案的到期时间也不尽相同,因此,还是可以当回归问题看,用回归模型预测商家用户在未来时间周期内在信息推广服务方面的投入。
对于与买家用户点击行为相关的信息推广服务类型,商家用户产生消耗的影响因素比较复杂,与商家用户的预算以及运营等有关系,因为商家出价和商品本身会影响排名,而商品本身和排名又影响买家用户的点击,最终根据买家的点击、商家的出价等因素产生消耗,因此商家和商家之间在这种信息推广服务上的消耗差异会很大,而且在不同的时间段差异也会很大,所以本场景是一个标准的回归问题场景。
但是,因为信息推广服务的计费逻辑不同,服务模式不同,会导致特征选择上有很大差异,因此可以通过两个模型分别预测商家用户在上述不同类型的信息推广服务方面的消耗,最后将两部分加起来,构成信息推广服务LTV:
Total_ad_LTV=LTV1+LTV2 (3)
但是,具体在模型训练以及预测过程中,仍然会面临一些难点及挑战,具体如:
1、样本量偏少:对于与用户点击相关的信息推广服务,并不是每个商家都购买过,而且对于与用户点击无关的信息推广服务,购买过的商家更少。而回归模型的训练对样本量的要求比较高,在这种情况下,使得训练难度比较大。
2、预测周期偏长:本申请实施例中,需要预测每个商家未来一年在信息推广服务方面的消耗,由于时间偏长,使得每个商家的差异和波动也很大。
3、影响信息推广服务方面的消耗的因素太多,例如,与买家用户点击相关的信息推广服务,需要商家用户制定计划,设置预算,开始投入,然后需要通过算法经过一系列的处理最终决定透出位置,之后具体是否会产生消耗,还要取决于买家用户是否会点击,等等。所以在这个过程中,找到适合的模型,以及模型的关键特征变的至关重要。
针对上述问题,首先,由于样本量偏少,因此,具体在样本构造时也可以采用每个商家每个月时间维度上随机抽取一天作为观测时间点的方案,从而对于同一商家用户,可以构造出多条样本数据,这样既可以丰富样本量,解决样本偏少的问题,还能以不同的时间点为观测点看该商家未来的情况,增加模型的泛化性能。例如,如图4所示,取近两个年度的数据,从第一个月份开始,按月切分训练集,对于每个商家每月随机抽取一天,以该时间节点为分界线,向后统计一年的信息推广服务方面产生的消耗作为目标值,向前统计不同维度上的指标作为特征,以实现对模型的训练。
在特征选择方面,同样可以预先根据权系统的服务流程,收集所有可能影响商家对信息推广服务方面的投入的因素。例如,大致可以分为与消耗相关的因素(包括当日账户余额、近30天日均消耗等)、与商品相关的因素(有效产品数、潜力品数等)、与关键词及流量相关的因素(在线产品关键词数、月在线购买关键词量)、与销售相关的因素(服务中客户数、近30日销售拜访次数)、商家本身属性&商家实力相关的因素,之前信息推广效果的因素(30天询盘等)、计划相关的因素(30天平均营销计划数),等等。同样可以通过“指标”中心读取或者定制相关的指标,以作为模型训练数据。在训练过程中,还可以通过选择多个特征组合、特征权重等方式进行多次的训练,然后,通过构造测试集的方式,对模型的预测效果进行对比,确定出效果较佳的特征组合、特征权重,等等。
另外,由于预测时间可能会横跨整年,并且,可能需要每天都做预测,因此,采样的时间通常也需要横跨整年,在每个月随机抽取一天作为观测时间点的情况下,可能会导致不同时间段采集到的特征差异很大。例如,商家在一些“大促月”,“近30天日均信息推广服务方面的消耗”,可能是全年最高的,等等。因此,为了能够抹平这些特征之间的差异,还可以为具体构造出的数据添加一些时间维度上的特征,例如:是否“大促月”,具体的观测时间点距离“大促月”的天数,自然月份数后两位(01代表1月,02代表2月,以此类推),等等。当然,具体实现时,具体进行观测时间点抽取时,子时间周期也可能是“周”等其他的时间长度,但同样可以使用类似的方式为采集到的数据添加时间特征。具体包括:观测时间点所处的子时间周期是否关联有目标营销活动,观测时间点与目标营销活动开始或结束时间的距离,和/或所述观测时间点所处的子时间周期的标识,等等。
关于模型的选择方面,对于前述与买家用户点击情况无关的信息推广服务,可以使用随机森林或者LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机器学习)等模型来进行训练及预测。
而对于与买家用户点击情况相关的信息推广服务,由于这种类型的情况更为复杂,预测难度更高,因此,对样本的需求量会更大。但是,由于样本量偏少,并且特征数据缺失的情况也相对比较严重,尤其是在建模早期,如果使用传统的随机森林和LightGBM,则可能会存在学习不够充分等问题。因此,对于这种类型的LTV预测,可以使用Deep Forest模型。基于集成学习的思想,将其他的学习模型堆叠起来,可以获取更好的表示性能。DeepForest就是基于这种想法提出来的一种深度结构,通过级联的方式堆叠多层随机森林,以获得更好的特征表示和学习性能,因此,使得该模型可以在小规模训练中能表现出更优的性能。
(三)跨境供应链服务LTV
由于跨境贸易涉及到的环节众多,例如包括:通关、物流、仓储、外汇结算、退税、金融等,繁多冗杂。对于大企业来说,这些环节可能自己就消化解决了。而对于中小企业,想要进行跨境贸易,难上加难。由此,跨境履约供应链服务应运而生。
跨境供应链服务LTV,也即针对系统为商家用户提供的跨境供应链服务这一服务类别,商家用户通过使用系统提供的跨境供应链服务,为系统所做出的价值贡献情况。对于这种跨境供应链服务LTV,可以取多个商家未来时间周期的供应链服务价值贡献量作为预测目标,由于对于每个商家来说未来一年的供应链服务方面的投入是一个连续性数据,所以对于供应链LTV模型,同样可以采用回归模型。
其中,由于供应链服务部分涉及到的费用类型众多,费用与费用之间差异巨大,而且影响各类费用的因素各异,商家的订单分布决定了主要的营收组成,同时也受到包括支付渠道的成本、线上支付方式的占比、提现的占比、等级等的影响。个别费用类型除了受平台、商家的影响,还受到外部环境的影响,例如,国际汇率、以及国际船运价格等。因此对模型的建设带来了很大的挑战。
为此,在本申请实施例中,同样可以将跨境供应链服务划分为多种类型,针对各种类型的服务,分别使用不同的回归模型进行LTV预测。也即,具体的模型可以包括对应多种不同跨境供应链服务类型的多个回归模型,这种模型可以以商家用户在未来时间周期内在使用对应类型的跨境供应链服务过程中所产生的资源消耗为目标进行训练。
其中,具体对跨境供应链服务类型的划分方式可以有多种,例如,一种方式下,可以划分为以下几个类型:与交易订单有关的跨境供应链服务类型,以及与交易订单无关的跨境供应链服务类型;其中,所述与交易订单有关的跨境供应链服务类型还根据所产生的资源消耗与交易订单是否一一对应,划分为多个子类型。例如,前述与交易订单相关的类型具体可以为基础服务费部分,以及物流服务费两部分,其中,基础服务费部分通常与交易订单一一对应,每产生一笔订单就对应产生基础服务费。物流服务费虽然也与交易订单相关,但不一定是一一对应的。例如,跨境订单涉及的商品数量可能比较大,根据买家用户需求的紧急程度,可能选择将同一交易订单拆分为多个物流订单,例如,可以将部分货品通过空运的方式进行发货,以满足买家用户的紧急需求。剩余部分可能会通过海运的方式来进行发货,以节省双方的物流成本,等等。在采用不同的物流渠道时,产生的物流服务费也是不同的。另外,与交易订单无关的供应链服务具体可以时金融与手续费部分,例如,商家通过系统进行融资过程中产生的手续费,等等。
这样,对于供应链服务LTV可以表示为:
LTVs=Corder+Cjr+Cwl (4)
其中,Corder表示订单相关的基础服务方面的价值贡献,Cjr表示金融与手续费方面的价值贡献,Cwl表示物流服务方面的价值贡献。
关于样本构造,同样可以采用针对每个商家用户,每个月随机抽取一天作为观测时间点的方式,进行特征以及消耗数据的采集。这样可以满足样本的丰富度,以及提升模型的泛化能力。
关于特征工程,供应链的模型特征可以大致划分为费用相关类(最近30天买家服务费、最近30天外汇收益等)、订单及GMV(Gross Merchandise Volume,商品交易总额)相关类(历史实收订单量等)、商家属性(外贸实力分、工厂规模等)、活跃相关类(近7天活跃子账号数、7天停留时间等)、供应链服务类(线上支付方式的占比、各履约通道占比等),等等。
而在特征的选择以及特征重要性排序方面,对于这种供应链服务LTV相关的模型,可以基于因果分析的方法,为所述跨境供应链服务对应的目标模型进行特征维度的选择和/或特征维度的重要性排序。其中,所谓的基于因果分析的方法,是基于特征和目标进行因果校验和证伪,结论是:这些特征与要预测的目标之间是否有直接或间接地因果关系,等等。通过这种因果分析方法,可以更准确地确定出各种特征维度对目标模型地重要程度,从而进行特征维度地选择及排序。
另外,在供应链服务LTV相关地预测项目中,会存在一些与时间窗口相关的特征维度类似于最近7天的物流服务费消耗,最近30天的物流服务费消耗,最近90天的物流服务费消耗等。这些特征均有效,且不同时间窗口的重要性程度不一样,这就说明一个问题:物流收益此特征具有时间维度上的效益,因此,用一个方法体现此特征在时间维度上的区别变得有必要。
例如,两个商家用户A、B,在过去90天都产生了10笔物流服务方面的消耗,其中,商家A这10笔消耗都是在最近20天内产生的,另一个商家的这10笔消耗是2个月前产生的,则显然,前者的消耗情况更能代表该商家A未来在这物流方面的消耗趋势。
为此,本申请的优选实施例中,可以采用基于牛顿冷却定律的时间衰减系数对特征进行处理的实现方案。具体的,在为所述跨境供应链服务对应的目标模型获取训练样本的过程中,或者在针对目标商家用户进行价值预测过程中,获取该目标商家用户在多个维度上的特征的过程中,对于关联有时间窗口的维度,可以确定对应时间窗口内所产生的与跨境供应链服务相关的多笔资源消耗的时间分布情况,以及具体产生消耗的时间与所述观测时间点或当前预测时刻之间的距离,以此为所述多笔资源消耗确定不同的时间衰减系数后,再确定在对应维度上的特征。
例如,具体实现时,对于最近7天的物流服务费消耗,最近30天的物流服务费消耗,最近90天的物流服务费消耗等这些原本通过多个特征维度表达的特征,可以合并成同一个特征维度,例如,统一为“最近90天的物流服务费消耗”这样一个特征维度。但在获取该维度上的特征时,可以获取到多笔资源消耗的时间分布情况,也即,不仅需要获取“最近90天的物流服务费消耗”总量,还需要具体到该时间窗口内具体有多少笔物流服务费消耗,以及每笔消耗产生的时间。这样,每一笔消耗的产生时间距离当前观测时间点或者预测时刻的时间差,为每笔消耗确定不同的时间衰减系数,其中,时间差越大,衰减系数越小,也即,特征的重要程度也就越低。通过这种方式,可以更好地体现每笔消耗的产生时间对模型训练以及预测所产生的影响的不同,以此提升模型预测的准确度。
以上所述对会员服务LTV、信息推广服务LTV以及跨境供应链服务LTV三个分量的模型训练及预测方法进行了介绍,在具体在利用具体的模型进行预测时,可以按照周期来进行,例如,每天预测一次,等等。其中,在每次进行预测时,首先可以确定出具体需要预测的目标商家用户,然后基于当前预测时刻,获取目标商家用户在多个维度上的特征,并输入到各个模型中(每个模型所需的特征维度可能是不同的,可以分别获取),从而分别预测出多个LTV分量,再将多个LTV分量进行聚合,得到商家用户的综合LTV值。其中,对于各个LTV分量,还可能分别包括多个模型,例如,在前述例子中,会员服务LTV可能对应四个分类模型(当然,同一个商家用户可能仅需要通过其中两个分类模型进行会员服务LTV预测),信息推广服务LTV可能对应两个回归模型,跨境供应链服务LTV可能对应三个回归模型,这样,可以通过这9个模型预测出多个指标上的数值,还可以聚合为同一商家用户的综合LTV值。
关于上述商家用户LTV,可以有多种应用。例如,一种方式下,在一个育商项目A在开发出来之后,在正式上线为商家提供服务之前,可以对该育商项目A在未来时间周期内(例如,未来一年)可带来的育商效果进行预测,然后可以根据预测结果,做出关于是否正式上线该育商项目A的最终决策。
其中,对于上述情况,可以通过AB测试的方式来实现,具体的,可以将商家用户随机划分为群体M和群体N,其中,针对用户群体M上线上述育商项目A,对于群体N则不上线该育商项目A。之后,可以每天进行预测,在每次预测时,分别将用户群体M、N中的各个商家用户作为待测试的目标用户,分别预测出各个目标商家用户的LTV。之后,再将用户群体M中各个商家用户的LTV值进行聚合,得到该用户群体M的LTV总值,将将用户群体N中各个商家用户的LTV值进行聚合,得到该用户群体N的LTV总值。这样,通过将同一预测周期内,不同用户群体的LTV值之间的对比,即可确定出育商项目A再未来可获得的育商效果,进而可以根据该育商效果对比,确定是否正式向全量商家用户上线该育商项目A,等等。
当然,在进行AB测试时,还可以是针对其中一商家用户群体上线某目标目标项目/动作,另一商家用户群体则不上线该目标目标项目/动作,这样也可以通过对比不同用户群体对应的LTV的预测结果,进行目标目标项目/动作的决策。
另一种应用方式下,由于可以分别针对每个目标商家用户进行LTV的预测,因此,还可以根据所述目标商家用户对应的LTV的预测结果,获取所述目标模型中各特征在影响该目标商家用户的预测结果方面的重要程度及影响方向;这样,可以根据所述重要程度及影响方向确定可作为优化所述预测结果的潜力因素的第一目标特征,和/或用于可作为优化所述预测结果的风险因素的第二目标特征;进而,还可以根据所述第一目标特征和/或第二目标特征,向所述目标商家用户和/或为所述目标商家用户提供成长帮助的服务人员提供成长帮助计划优化建议信息。
其中,关于各特征在影响该目标商家用户的预测结果方面的重要程度及影响方向,可以通过Shap值的方式来进行确定。其中,Shap是Shapley Additive explanations的缩写,即沙普利加和解释,通过Shap值计算,对于每个样本模型都产生一个预测值,Shap值就是该样本中每个特征所分配到的数值。也就是说,通过Shap值,可以把预测结果拆解到特征维度,用来分析特征对预测结果的影响程度及方向。通过这种Shap值获取到特征的重要程度及方向之后,可以根据特征的重要性程度,分别取正负向的top3(或者其他数量)因子,将正向的作为优化LTV的潜力因素,负向的作为优化LTV的风险因素。这样,可以针对这些指标,指定差异化的改善策略。
总之,通过本申请实施例,可以从至少一个观测时间点对多个商家用户的历史行为数据进行统计获得的多个维度上的特征,以及以所述观测时间点为起点的未来时间周期内所述多个商家用户分别对应的价值贡献情况,然后,以所述多个商家分别对应的特征值作为训练输入数据,并以所述价值贡献情况作为训练目标,进行模型训练以得到目标模型。之后,可以确定当前预测周期内需要进行价值预测的目标商家用户,并以当前预测时刻为起点对目标商家用户的历史行为数据进行统计获得的多个维度上的特征,然后,可以以所述目标商家用户对应的特征值作为所述目标模型的输入数据,对以所述当前预测时刻为起点的未来时间周期内所述目标商家用户的价值贡献情况进行预测,以便根据价值贡献情况预测结果,对目标项目/动作进行决策或优化。由于每一个育商动作的执行都可能会影响商家用户未来对系统的价值贡献情况,因此,通过本申请实施例提供的方式,使得这种影响得到量化表达,从而为育商项目提供了灵敏的、可短期观测的指标,从而可以帮助运营服务人员在进行育商项目的选择决策时获得数据上的支持,也可以在发现对未来的价值贡献情况产生负向的影响时,及时优化或者调整现有的育商项目,从而帮助系统获得期望的育商效果。
其中,在优选的实施方式下,可以将商家价值贡献情况划分为多个价值贡献分量,并分别对应不同的目标模型,从而可以针对不同的目标模型分别进行特征维度的选择和/或特征维度的重要性排序,以完成模型的训练,从而提升模型的准确度。
在构造训练样本方面,通过针对每个商家用户在每个月随机选择一天作为观测时间点等方式,可以使得同一商家用户产生多条训练样本数据,从而提升样本的丰富度以及模型的泛化能力。
对于会员服务方面的价值贡献分量,采用了具有级联关系的第一分类模型以及第二分类模型进行组合的方案,使得每个模型都可以是一个二分类模型,有利于降低模型的预测难度,提升模型准确度。
对于信息推广服务方面的价值贡献分量,针对其中产生的资源消耗与消费者用户的点击情况相关的信息推广服务类型,可以通过级联的方式堆叠多层随机森林的深度结构模型,以弥补样本量不足,特征缺失等情况下带来的准确度问题。另外,针对同一商家用户在不同观测时间点对应的多份训练样本,还可以构造时间维度上的特征,以此抹平不同观测时间点之间的差异。
对于跨境供应链服务方面的价值贡献分量,可以通过基于牛顿冷却定律的时间衰减系数等方式,对关联有时间窗口的特征维度,确定出对应时间窗口内所产生的与跨境供应链服务相关的多笔资源消耗的时间分布情况,以及与所述观测时间点或当前预测时刻之间的距离,并为所述多笔资源消耗确定不同的时间衰减系数后,确定在对应维度上的特征。这样可以体现出具体消耗产生的不同时间对商家用户未来在对应方面产生消耗的趋势的不同影响,以此进一步提升模型的准确度。
在应用方面,可以通过AB测试等方式,在不同育商项目获得的未来时间周期内的价值贡献情况进行对比,从而对育商项目做出选择,或者为某育商项目是否可以正式上线发布等做出决策。
还可以根据所述目标商家用户对应的价值贡献情况的预测结果,获取所述目标模型中各特征在影响该目标商家用户的预测结果方面的重要程度及影响方向,以此来识别商家用户的问题,帮助商家诊断和商家运营,提升商家经营效果。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
与前述方法实施例相对应,本申请实施例还提供了一种数据处理装置,参见图5,该装置可以包括:
模型获取单元501,用于获取目标模型,所述目标模型通过以下方式获得:从至少一个观测时间点对多个商家用户的历史行为数据进行统计获得的多个维度上的特征,以及以所述观测时间点为起点的未来时间周期内所述多个商家用户分别对应的价值贡献情况,以所述多个商家分别对应的特征值作为训练输入数据,并以所述价值贡献情况作为训练目标,进行模型训练以得到所述目标模型;
特征获取单元502,用于确定当前预测周期内需要进行价值预测的目标商家用户,并以当前预测时刻为起点对目标商家用户的历史行为数据进行统计获得的多个维度上的特征;
预测单元503,用于以所述目标商家用户对应的特征值作为所述目标模型的输入数据,对以所述当前预测时刻为起点的未来时间周期内所述目标商家用户的价值贡献情况进行预测,以便根据价值贡献情况预测结果,对目标项目/动作进行决策或优化。
其中,可以根据商家用户可获得的服务类别的不同,将所述价值贡献情况划分为多个价值贡献分量,并分别对应不同的目标模型,以便针对不同的目标模型分别进行特征维度的选择和/或特征维度的重要性排序,以完成模型的训练。
其中,所述服务类别包括会员服务,对应的价值贡献情况为:商家用户通过续签成为系统会员,为系统所做出的价值贡献情况;
所述会员服务对应的目标模型包括:具有级联关系的第一分类模型以及第二分类模型,所述第一分类模型用于预测商家用户在未来目标时间周期内的续签概率,以商家用户未来目标时间周期内完成续签为目标进行训练;所述第二分类模型用于预测商家用户在续签时是否会发生会员等级变迁的概率,以商家用户在未来目标时间周期内进行续签时的会员等级是否发生变迁为目标进行训练。
其中,所述具有级联关系的第一分类模型以及第二分类模型可以为多组,对应不同的目标商家用户当前所处的多个不同的会员等级。
另外,所述服务类别包括信息推广服务,对应的价值贡献情况为:商家用户通过使用系统提供的信息推广服务,为系统所做出的价值贡献情况;
所述信息推广服务对应的目标模型包括:对应多种不同信息推广服务类型的多个回归模型,以商家用户在未来时间周期内在使用对应类型的信息推广服务过程中所产生的资源消耗为目标进行训练。
其中,所述信息推广服务类型包括:产生的资源消耗与消费者用户的点击情况相关的信息推广服务类型,对应的回归模型包括:通过级联的方式堆叠多层随机森林的深度结构模型。
另外,所述服务类别包括跨境供应链服务,对应的价值贡献情况为:商家用户通过使用系统提供的跨境供应链服务,为系统所做出的价值贡献情况;
所述跨境供应链服务对应的目标模型包括:对应多种不同跨境供应链服务类型的多个回归模型,以商家用户在未来时间周期内在使用对应类型的跨境供应链服务过程中所产生的资源消耗为目标进行训练。
其中,所述跨境供应链服务类型包括:与交易订单有关的跨境供应链服务类型,以及与交易订单无关的跨境供应链服务类型;其中,所述与交易订单有关的跨境供应链服务类型还根据所产生的资源消耗与交易订单是否一一对应,划分为多个子类型。
具体的,在为所述跨境供应链服务对应的目标模型获取训练样本的过程中,或者在针对目标商家用户进行价值预测过程中,获取该目标商家用户在多个维度上的特征的过程中,对于关联有时间窗口的维度,确定对应时间窗口内所产生的与跨境供应链服务相关的多笔资源消耗的时间分布情况,以及与所述观测时间点或当前预测时刻之间的距离,并为所述多笔资源消耗确定不同的时间衰减系数后,确定在对应维度上的特征。
另外,可以基于因果分析的方法,为所述跨境供应链服务对应的目标模型进行特征维度的选择和/或特征维度的重要性排序。
再者,在目标模型获取训练样本的过程中,可以分别为每个商家用户确定多个观测时间点,以便针对同一商家用户在多个不同的观测时间点获得多份训练样本,以用于进行模型训练;其中,同一商家用户对应的多个观测时间点,在不同的子时间周期之间平均分布,并在同一子时间周期内具有随机性。
其中,在为信息推广服务对应的目标模型获取训练样本的过程中,可以针对同一商家用户在不同观测时间点对应的多份训练样本,构造时间维度上的特征,所述时间维度上的特征包括:所述观测时间点所处的子时间周期是否关联有目标营销活动,所述观测时间点与目标营销活动开始或结束时间的距离,和/或所述观测时间点所处的子时间周期的标识。
具体的,所述特征获取单元具体可以用于:
在对目标项目/动作进行AB测试的过程中,从参加AB测试的两个商家用户群体中确定所述目标商家用户,其中,针对不同商家用户群体上线不同的目标项目/动作,或者,针对其中一商家用户群体上线目标目标项目/动作,另一商家用户群体未上线该目标目标项目/动作;
此时,该装置还可以包括:
聚合对比单元,用于根据同一用户群体中的各目标商家用户分别对应的未来时间周期内的价值贡献情况预测结果进行聚合,确定同一目标项目/动作在未来时间周期内可获得的育商效果的预测结果,以便通过对比不同目标项目/动作之间的预测结果,进行目标项目/动作的选择或决策。
另一种应用方式下,该装置还可以包括:
特征重要性分析单元,用于根据所述目标商家用户对应的价值贡献情况的预测结果,获取所述目标模型中各特征在影响该目标商家用户的预测结果方面的重要程度及影响方向;
目标特征确定单元,用于根据所述重要程度及影响方向确定可作为优化所述预测结果的潜力因素的第一目标特征,和/或用于可作为优化所述预测结果的风险因素的第二目标特征;
建议信息提供单元,用于根据所述第一目标特征和/或第二目标特征,向所述目标商家用户和/或为所述目标商家用户提供育商服务的服务人员提供目标项目/动作的优化建议信息。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
其中,图6示例性的展示出了电子设备的架构,具体可以包括处理器610,视频显示适配器611,磁盘驱动器612,输入/输出接口613,网络接口614,以及存储器620。上述处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620之间可以通过通信总线630进行通信连接。
其中,处理器610可以采用通用的CPU(Central Processing Unit,处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器620可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器620可以存储用于控制电子设备600运行的操作系统621,用于控制电子设备600的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器623,数据存储管理系统624,以及数据处理系统625等等。上述数据处理系统625就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行。
输入/输出接口613用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口614用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线630包括一通路,在设备的各个组件(例如处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,存储器620,总线630等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的数据处理方法及电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。