CN112686690A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112686690A
CN112686690A CN202011524166.5A CN202011524166A CN112686690A CN 112686690 A CN112686690 A CN 112686690A CN 202011524166 A CN202011524166 A CN 202011524166A CN 112686690 A CN112686690 A CN 112686690A
Authority
CN
China
Prior art keywords
service
data
liveness
activity
experimental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011524166.5A
Other languages
English (en)
Other versions
CN112686690B (zh
Inventor
黄岑
高梓尧
李健伟
刘子岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202011524166.5A priority Critical patent/CN112686690B/zh
Publication of CN112686690A publication Critical patent/CN112686690A/zh
Application granted granted Critical
Publication of CN112686690B publication Critical patent/CN112686690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开关于一种数据处理方法、装置、终端、服务器及存储介质,其中,该方法包括:获取对象的画像数据和对象对应于第一业务的行为数据;从画像数据中提取对象的画像特征和从行为数据中提取对象的行为特征;向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果;根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型;解决了相关技术中无法针对长期业务场景下,对对象划分类型的问题,而且达到了高效、准确地对对象划分类型,进而能够顺利地针对不同对象执行不同策略处理的效果。

Description

数据处理方法、装置、电子设备及计算机可读存储介质
技术领域
本公开涉及计算机领域,尤其涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
目前,在进行业务推广时,业务对不同的对象的影响是不同的,因此,需要针对不同的影响对对象划分不同的类型,对不同的类型分别执行对应的处理,从而实现最佳的业务推广效果。例如,在相关技术中,所采用的一种方法是,利用预训练的模型分别预测每个对象执行业务操作后的操作奖励值(比如,对对象发放优惠券后是否产生了购买效果),根据操作奖励值将对象划分不同的类型,进而分别进行处理。但这种方法适用场景有限,例如,仅适用于一次性的业务场景。
发明内容
本公开提供一种数据处理方法、装置、电子设备及计算机可读存储介质,以至少解决相关技术中无法对长期业务场景下,对对象划分类型的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种数据处理方法,包括:获取对象的画像数据和所述对象对应于第一业务的行为数据;从所述画像数据中提取所述对象的画像特征和从所述行为数据中提取所述对象的行为特征;向活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于第二业务和对应于所述第一业务的活跃度提升结果;根据所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,划分所述对象所属的类型;其中,所述活跃度增益模型采用样本数据集训练得到,所述样本数据集包括实验组数据与控制组数据,其中,所述实验组数据包括实验对象的画像数据、行为数据、以及所述实验对象对应于所述第二业务的活跃度提升结果,所述控制组数据包括控制对象的画像数据、行为数据、以及所述控制对象对应于所述第一业务的活跃度提升结果,所述第一业务为所述第二业务的旧版本业务。
可选地,在向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果之前,还包括:对所述画像特征和/或所述行为特征进行缺失性检测;在所述画像特征和/或所述行为特征存在缺失的情况下,填充所述画像特征和所述行为特征缺失的特征。
可选地,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,包括:假设所述对象为实验对象,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为实验对象对应于所述第二业务的第一活跃度提升概率;假设所述对象为控制对象,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为控制对象对应于所述第一业务的第二活跃度提升概率;将所述第一活跃度提升概率和所述第二活跃度提升概率分别与第一提升概率阈值进行比较,得到所述对象假设为实验对象对应于所述第二业务的活跃度提升结果和所述对象假设为控制对象对应于所述第一业务的活跃度提升结果,其中,所述活跃度提升结果包括以下之一:所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升;所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升;所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升;所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升。
可选地,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,包括:假设所述对象为实验对象,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为实验对象对应于所述第二业务的第一活跃度提升结果;假设所述对象为控制对象,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为控制对象对应于所述第一业务的第二活跃度提升结果;其中,所述活跃度提升结果包括:所述第一活跃度提升结果和所述第二活跃度提升结果,其中,所述第一活跃度提升结果包括:所述对象假设为实验对象对应于所述第二业务的活跃度有提升,或者所述对象假设为实验对象对应于所述第二业务的活跃度没有提升;所述第二活跃度提升结果包括:所述对象假设为控制对象对应于所述第一业务的活跃度有提升,或者所述对象假设为控制对象对应于所述第一业务的活跃度没有提升。
可选地,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,包括:假设所述对象为实验对象,向第一活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为实验对象对应于所述第二业务的第三活跃度提升概率;假设所述对象为控制对象,向第二活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为控制对象对应于所述第一业务的第四活跃度提升概率;将所述第三活跃度提升概率和所述第四活跃度提升概率分别与第二提升概率阈值进行比较,得到所述对象假设为实验对象对应于所述第二业务的活跃度提升结果和所述对象假设为控制对象对应于所述第一业务的活跃度提升结果,其中,所述活跃度提升结果包括以下之一:所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升;所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升;所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升;所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升;其中,所述活跃度增益模型包括:所述第一活跃度增益模型和所述第二活跃度增益模型,所述第一活跃度增益模型通过所述实验组数据训练得到,所述第二活跃度增益模型通过所述控制组数据训练得到。
可选地,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,包括:向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象属于四个类别中各类别的概率,其中,所述四个类别包括:所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升;根据所述对象属于四个类别中各类别的概率,确定所述对象假设为实验对象对应于所述第二业务的第三活跃度提升结果和所述对象假设为控制对象对应于所述第一业务的第四活跃度提升结果;其中,所述活跃度提升结果包括:所述第三活跃度提升结果和所述第四活跃度提升结果,其中,所述第三活跃度提升结果包括:所述对象假设为实验对象对应于所述第二业务的活跃度有提升,或者所述对象假设为实验对象对应于所述第二业务的活跃度没有提升;所述第四活跃度提升结果包括:所述对象假设为控制对象对应于所述第一业务的活跃度有提升,或者所述对象假设为控制对象对应于所述第一业务的活跃度没有提升。
可选地,根据所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,划分所述对象所属的类型,包括以下之一:
在所述活跃度提升结果为所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升时,将所述对象划分为确认型;在所述活跃度提升结果为所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升时,将所述对象划分为敏感型;在所述活跃度提升结果为所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升时,将所述对象划分为勿扰型;在所述活跃度提升结果为所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升时,将所述对象划分为沉睡型。
可选地,通过以下方式,确定所述对象分别对应于第二业务和对应于所述第一业务的活跃度提升结果:获取所述活跃度增益模型输出的对应于所述第二业务的活跃度提升概率、对应于所述第一业务的活跃度提升概率;以时间为横坐标、以对应于所述第二业务的活跃度提升概率为纵坐标,生成所述对象的第一生存曲线;以时间为横坐标、以对应于所述第一业务的活跃度提升概率为纵坐标,生成所述对象的第二生存曲线;确定所述第一生存曲线与坐标轴构成的第一面积和所述第二生存曲线与坐标轴构成的第二面积;根据所述第一面积与所述第二面积,确定所述对象对应于所述第二业务和对应于所述第一业务的活跃度提升结果。
根据本公开实施例的第二方面,提供一种数据处理方法,包括:获取样本数据集,其中,所述样本数据集包括实验组数据和控制组数据,所述控制组数据包括控制对象的画像数据、行为数据、以及所述控制对象对应于第一业务的活跃度提升结果,所述实验组数据包括实验对象的画像数据、行为数据、以及所述实验对象对应于第二业务的活跃度提升结果,所述第一业务为所述第二业务的旧版本业务;提取所述实验对象的画像数据的画像特征和行为数据的行为特征,以及提取所述控制对象的画像数据的画像特征和行为数据的行为特征;采用所述实验对象的画像数据的画像特征和行为数据的行为特征作为输入,所述实验对象对应于所述第二业务的活跃度提升结果作为输出,以及采用所述控制对象的画像数据的画像特征和行为数据的行为特征作为输入,所述控制对象对应于所述第一业务的活跃度提升结果作为输出,对活跃度增益模型进行训练。
可选地,对所述活跃度增益模型进行训练包括:向所述活跃度增益模型输入所述实验对象的画像数据的画像特征和行为数据的行为特征,得到所述实验对象对应于所述第二业务的第一活跃度提升预测概率;比较所述第一活跃度提升预测概率与第一提升概率阈值,得到所述实验对象对应于所述第二业务是否有提升的第一活跃度提升预测结果;确定所述第一活跃度提升预测结果与所述实验对象对应于所述第二业务的活跃度提升结果之间的第一差异;根据所述第一差异,优化所述活跃度增益模型的模型参数;向所述活跃度增益模型输入所述控制对象的画像数据的画像特征和行为数据的行为特征,得到所述控制对象对应于所述第一业务的第二活跃度提升预测概率;比较所述第二活跃度提升预测概率与第一提升概率阈值,得到所述控制对象对应于所述第一业务是否有提升的第二活跃度提升预测结果;确定所述第二活跃度提升预测结果与所述控制对象对应于所述第一业务的活跃度提升结果之间的第二差异;根据所述第二差异,优化所述活跃度增益模型的模型参数。
可选地,对所述活跃度增益模型进行训练包括:向所述活跃度增益模型输入所述实验对象的画像数据的画像特征和行为数据的行为特征,得到所述实验对象对应于所述第二业务的第三活跃度提升预测结果;确定所述第三活跃度提升预测结果与所述实验对象对应于所述第二业务的活跃度提升结果之间的第三差异;根据所述第三差异,优化所述活跃度增益模型的模型参数;向所述活跃度增益模型输入所述控制对象的画像数据的画像特征和行为数据的行为特征,得到所述控制对象对应于所述第一业务的第四活跃度提升预测结果;确定所述第四活跃度提升预测结果与所述控制对象对应于所述第一业务的活跃度提升结果之间的第四差异;根据所述第四差异,优化所述活跃度增益模型的模型参数。
可选地,对所述活跃度增益模型进行训练包括:向第一活跃度增益模型输入所述实验对象的画像数据的画像特征和行为数据的行为特征,得到所述实验对象对应于所述第二业务的第三活跃度提升预测概率,比较所述第三活跃度提升预测概率与第二提升概率阈值,得到所述实验对象对应于所述第二业务的第五活跃度提升预测结果;确定所述第五活跃度提升预测结果与所述实验对象对应于所述第二业务的活跃度提升结果之间的第五差异;根据所述第五差异,优化所述第一模型的模型参数;向第二活跃度增益模型输入所述控制对象的画像数据的画像特征和行为数据的行为特征,得到所述控制对象对应于所述第一业务的第四活跃度提升预测概率,比较所述第四活跃度提升预测概率与第二提升概率阈值,得到所述控制对象对应于所述第二业务的第六活跃度提升预测结果;确定所述第六活跃度提升预测结果与所述控制对象对应于所述第一业务的活跃度提升结果之间的第六差异;根据所述第六差异,优化所述第二模型的模型参数。
可选地,对所述活跃度增益模型进行训练包括:向所述活跃度增益模型输入所述实验对象的画像数据的画像特征和行为数据的行为特征,得到所述实验对象属于四个类别中各类别的概率;以及向所述活跃度增益模型输入所述控制对象的画像数据的画像特征和行为数据的行为特征,得到所述控制对象属于四个类别中各类别的概率,其中,所述四个类别包括:所述实验对象对应于所述第二业务活跃度有提升,所述实验对象对应于所述第二业务活跃度没有提升,所述控制对象对应于所述第一业务活跃度有提升,所述控制对象对应于所述第一业务活跃度没有提升;根据得到的所述实验对象属于四个类别中各类别的概率确定所述实验对象所属的类别,确定所述实验对象所属的类别与所述实验对象对应于所述第二业务的活跃度提升结果之间的第七差异,优化所述活跃度增益模型的模型参数;以及根据得到的所述控制对象属于四个类别中各类别的概率确定所述控制对象所属的类别,确定所述实验对象所属的类别与所述控制对象对应于所述第一业务的活跃度提升结果之间的第八差异,优化所述活跃度增益模型的模型参数。
可选地,在对所述活跃度增益模型进行训练之前,还包括:根据预定剪裁条件,对所述实验组数据进行剪裁,获得所述实验组数据中满足所述预定剪裁条件的第一正样本数据和第一负样本数据;和/或,根据预定剪裁条件,对所述控制组数据进行剪裁,获得所述控制组数据中满足所述预定剪裁条件的第二正样本数据和第二负样本数据。
可选地,所述获得所述实验组数据中满足所述预定剪裁条件的第一正样本数据和第一负样本数据,包括:确定所述实验组数据中的第一数据为所述第一正样本数据,确定所述实验组数据中的第二数据为所述第一负样本数据,其中,所述第一数据为所述实验对象对应于所述第二业务的活跃度提升超过第一预定数值的实验组数据,所述第二数据为所述实验对象对应于所述第二业务的活跃度降低超过第二预定数值的实验组数据;和/或,所述获得所述控制组数据中满足所述预定剪裁条件的第二正样本数据和第二负样本数据,包括:确定所述控制组数据中的第三数据为所述第二正样本数据,确定所述控制组数据中的第四数据为所述第二负样本数据,其中,所述第三数据为所述控制对象对应于所述第一业务的活跃度提升超过第三预定数值的控制组数据,所述第四数据为所述控制对象对应于所述第一业务的活跃度降低超过第四预定数值的控制组数据。
可选地,在对所述活跃度增益模型进行训练之前,还包括:根据所述实验组数据和所述控制组数据,确定用于模型训练的建议选项,其中,所述建议选项包括用于选择模型参数阈值的第一选项和用于选择对模型训练的样本集进行操作的操作方式的第二选项;展示所述建议选项。
可选地,根据所述实验组数据和所述控制组数据,确定用于模型训练的建议选项,包括:根据所述实验组数据和所述控制组数据,统计出所述实验对象和所述控制对象的生存概率曲线和/或风险比例曲线,其中,所述生存概率曲线用于表示所述实验对象在预定时间段内在所述第二业务上再次活跃的概率分布,或者所述控制对象在预定时间段内在所述第一业务上再次活跃的概率分布,所述风险比例曲线用于表示所述实验对象在预定时间段内的时间点上再次活跃的概率分布,或者所述控制对象在预定时间段内的时间点上再次活跃的概率分布;根据所述生存概率曲线和/或所述风险比例曲线,确定所述生存概率曲线和/或所述风险比例曲线发生转折或者突变的数据点;根据所述数据点的参数值,确定模型训练的建议参数阈值和对模型训练的样本集进行操作的操作方式。
可选地,在对所述活跃度增益模型进行训练之前,还包括:检测所述实验组数据和所述控制组数据缺失的特征;对检测出的缺失特征进行填充与编码。
本公开实施例的第三方面,提供一种数据处理装置,其特征在于,包括:第一获取模块,用于获取对象的画像数据和所述对象对应于第一业务的行为数据;第一提取模块,用于从所述画像数据中提取所述对象的画像特征和从所述行为数据中提取所述对象的行为特征;第一预测模块,用于向活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于第二业务和对应于所述第一业务的活跃度提升结果;第一划分模块,用于根据所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,划分所述对象所属的类型;其中,所述活跃度增益模型采用样本数据集训练得到,所述样本数据集包括实验组数据与控制组数据,其中,所述实验组数据包括实验对象的画像数据、行为数据、以及所述实验对象对应于所述第二业务的活跃度提升结果,所述控制组数据包括控制对象的画像数据、行为数据、以及所述控制对象对应于所述第一业务的活跃度提升结果,所述第一业务为所述第二业务的旧版本业务。
本公开实施例的第四方面,提供一种数据处理装置,包括:第二获取模块,用于获取样本数据集,其中,所述样本数据集包括实验组数据和控制组数据,所述控制组数据包括控制对象的画像数据、行为数据、以及所述控制对象对应于第一业务的活跃度提升结果,所述实验组数据包括实验对象的画像数据、行为数据、以及所述实验对象对应于第二业务的活跃度提升结果,所述第一业务为所述第二业务的旧版本业务;第二提取模块,用于提取所述实验对象的画像数据的画像特征和行为数据的行为特征,以及提取所述控制对象的画像数据的画像特征和行为数据的行为特征;训练模块,用于采用所述实验对象的画像数据的画像特征和行为数据的行为特征作为输入,所述实验对象对应于所述第二业务的活跃度提升结果作为输出,以及采用所述控制对象的画像数据的画像特征和行为数据的行为特征作为输入,所述控制对象对应于所述第一业务的活跃度提升结果作为输出,对活跃度增益模型进行训练。
本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的数据处理方法。
本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的数据处理方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的数据处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过向活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于第二业务和对应于所述第一业务的活跃度提升结果,并根据对象分别对应于第二业务和对应于所述第一业务的活跃度提升结果,划分对象所属的类型。第一业务为第二业务的旧版本业务,对象分别对应于第二业务的活跃度提升结果与对应于第一业务的活跃度提升结果可以是一段比较长时间内的影响,由于对象分别对应于第二业务的活跃度提升结果与对应于第一业务的活跃度提升结果之间的差异体现了业务变化对对象的影响,因而依据差异可以对对象的类型进行有效划分,实现了对长期业务场景下,有效地对对象划分类型,从而为针对不同类型的对象采用不同的处理策略提供基础,不仅解决了相关技术中无法针对长期业务场景下,对对象划分类型的问题,而且达到了高效、准确地对对象划分类型,进而能够顺利地针对不同对象执行不同策略处理的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种用于实现数据处理方法的计算机终端的硬件结构框图。
图2是根据一示例性实施例示出的一种数据处理方法一的流程图。
图3是根据一示例性实施例示出的一种数据处理方法二的流程图。
图4是根据一示例性实施例示出的上提升模型(uplift model)的原型示意图。
图5是根据一示例性实施例示出的生存曲线下的面积变化表征长期活跃度的指标的示意图。
图6是根据一示例性实施例示出的模型训练系统的示意图。
图7是根据一示例性实施例示出的数据处理装置一的装置框图。
图8是根据一示例性实施例示出的数据处理装置二的装置框图。
图9是根据一示例性实施例示出的一种终端的装置框图。
图10是根据一示例性实施例示出的一种服务器的结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
根据本公开实施例,提出了一种数据处理方法的方法实施例。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是根据一示例性实施例示出的一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中的数据处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机终端(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
应用于上述设备,本公开实施例提供了如图2所示的数据处理方法。图2是根据一示例性实施例示出的一种数据处理方法一的流程图,如图2所示,该方法用于上述的计算机终端中,包括以下步骤。
在步骤S21中,获取对象的画像数据和对象对应于第一业务的行为数据。需要说明的是,此处所指的对象对应于第一业务的行为数据,可以是对象在第一业务上活跃的数据,属于对象在第一业务的历史数据。例如,第一业务可以为一个应用程序,该对象对应于第一业务的行为数据即是该对象在该应用程序上所发生的行为的数据。即该行为数据是用于记录用户在该应用程序上所发生的各种行为的。比如,该行为数据可以是访问应用程序的次数,访问该应用程序的频率,在该应用程序上的浏览时长,浏览方式,以及在该应用程序上所进行的一系列操作(比如,对该应用程序中所展示内容的点击操作,对该应用程序所展示内容的评论,对该应用程序所展示内容的转发等)。
应当理解,对象对应于第一业务的行为数据可通过该对象的用户帐户登录的设备实现,例如,用户通过用户帐户登录的设备在一天内多次访问应用程序。
在步骤S22中,从画像数据中提取对象的画像特征和从行为数据中提取对象的行为特征。
在步骤S23中,向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果。
需要说明的是,上述对象对应于第二业务的活跃度提升结果可以是表示对象在新业务上的活跃度提升结果,一个示例中,对象对应于第二业务的活跃度提升结果用于表征该对象假设为实验对象时活跃度是否有提升的结果,例如,当预测对象假设为实验对象时,预测得到的概率值大于一概率阈值时,则确认该对象假设为实验对象时活跃度是有提升的;当预测对象假设为实验对象时,预测得到的概率值不大于该概率阈值时,则确认该对象假设为实验对象时活跃度是没有提升的。
上述对象对应于第一业务的活跃度提升结果可以是表示对象在旧业务上的活跃度提升结果,一个示例中,对象对应于第一业务的活跃度提升结果用于表征该对象假设为控制对象时活跃度是否有提升的结果,例如,当预测对象假设为控制对象时,预测得到的概率值大于该概率阈值时,则确认该对象假设为控制对象时活跃度是有提升的;当预测对象假设为控制对象时,预测得到的概率值不大于该概率阈值时,则确认该对象假设为控制对象时活跃度是没有提升的。
其中,活跃度增益模型采用样本数据集训练得到,样本数据集包括实验组数据与控制组数据,其中,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,第一业务为第二业务的旧版本业务。
在步骤S24中,根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型。
采用上述处理,通过向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,并根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型。第一业务为第二业务的旧版本业务,对象分别对应于第二业务的活跃度提升结果与对应于第一业务的活跃度提升结果之间的差异体现了业务变化对对象的影响,因而依据差异可以对对象的类型进行有效划分,实现了对于业务变化的业务场景下,有效地对对象划分类型,从而为针对不同类型的对象采用不同的处理策略提供基础,不仅解决了相关技术中无法针对对象划分类型的问题,而且达到了高效、准确地对对象划分类型,进而能够顺利地针对不同对象执行不同策略处理的效果。
在一个实施例中,对象分别对应于第二业务的活跃度提升结果与对应于第一业务的活跃度提升结果可以是一段比较长时间内的影响,故本方案适用于长期业务场景。当然,本方案也适用于短期业务场景。需要说明的是,本实施例中所涉及的长期业务场景是相对于短期业务场景而言的,长期业务场景关注的是对象在一个时间段内的对应于业务的活跃度提升的影响。其中,这个时间段是相对于作为一次性的短期业务场景而言的。举例来说,例如,向用户发送某商品的优惠券后,统计用户是否发生购买,可以认为属于一次性的短期业务场景;又例如,通过在互联网应用的应用程序的页面进行更改,统计用户对该应用程序的活跃度的改变,而统计用户对该应用程序的活跃度的改变则需要统计一段时间内活跃度的改变,仅统计一次是没有意义的,因此,可以认为属于长期业务场景。
在一个或多个可选实施例中,上述方法的执行主体可以具备数据处理功能的电子设备,其中,该电子设备可以是多种的,例如,可以是各种类型的计算机终端或者服务器等。
在一个或多个可选实施例中,上述业务,即上述所指的第一业务和第二业务可以是多种的,例如,可以是具体的应用业务,例如,一个应用(APP),也可以是应用的构成部分(比如,可以是应用的展示界面,可以是应用的功能模块,还可以是与应用进行交互的交互工具等)。其中,应用业务也可以是多种的,例如,可以是各种网络的应用业务,比如,可以是基于互联网的互联网应用,基于物联网的物联网应用,基于车联网的车联网应用等。基于各种网络的应用业务还可以是多种类型的,例如,可以是视频类应用,可以是网页类应用,还可以是电商类应用,网游类应用等。
在一个或多个可选实施例中,上述所指的第一业务为第二业务的旧版本业务,可以是第二业务是在第一业务的基础上进行更新或者是改变的业务。举例来说,如果该业务为基于互联网的用于交互的视频类应用时,第二业务可以是在第一业务的基础上进行了页面样式改变的业务,即对视频类应用的页面样式进行了改变(比如,改变了页面的排版,改变的页面的显示字体,改变了页面的边框颜色等);第二业务可以是在第一业务的基础上进行了更新方式改变的业务,即对视频类应用的更新方式进行了改变(比如,对应于更新视频的方式由上下滑动更新改变为了左右滑动更新,由通过控制方向按钮的方式转换视角改变为了通过旋转终端设备来转换视角等);第二业务还可以是在第一业务的基础上进行了展示方式的改变的业务,即对视频类应用的播放方式进行了改变(比如,由正常播放改变为了全景播放,由正常播放改变为了倍数播放的快播方式等)。
在一个或多个可选实施例中,上述对象的画像数据可以是用于描述对象的数据,对象的画像数据所包括的类型可以多种,例如,可以包括以下至少之一:对象的性别,对象的年龄,对象的职业,对象所使用设备的型号,对象所使用设备的操作系统,对象所使用设备的价格,对象的长驻地,对象的粉丝数,对象注册/安装预定应用的状态。例如,对象是使用上述业务的用户帐户时,对象的画像数据可以是用于描述用户帐户的数据,即可以是上述所指的用户帐户的性别,用户帐户的年龄,用户帐户的职业,用户帐户登录的设备的型号,用户帐户登录的设备的操作系统,用户帐户登录的设备的价格,用户帐户的长驻地,用户帐户的粉丝数,用户帐户注册/安装应用的状态等。上述对象的画像数据可以是对象的静态数据。
在一个或多个可选实施例中,上述对象的行为数据是用于描述对象不断变换的行为的数据,属于对象的动态数据。比如,对象为具体的用户时,对象的行为数据可以是用户各种行为的数据,例如,一个用户打开网页,买了一个杯子;与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等等都是用户行为。当用户使用上述业务时,在上述业务上的各种动态的行为数据都可以被记录下来。举例来说,当对象为用户,当对象使用的业务为基于互联网的互联网应用时,用户的行为数据可以包括以上至少之一:用户在预定时间内访问互联网应用的次数,用户访问互联网应用时停留的时长,用户访问互联网应用后再次访问互联网应用的间隔时长,用户在互联网应用上所执行的操作等。比如,当该互联网应用为用于交互的视频类应用时,用户的行为数据可以是:用户在预定时间内(一个月)访问该视频类应用的次数,用户在访问该视频类应用时停留的时长,用户访问视频类应用后再次访问该视频类应用的间隔时长,用户在该视频类应用上所执行的操作(比如,对该视频类应用上功能控件的操作:对视频类应用中视频的评论,转发,点赞,收藏等),等等。应当理解,用户的上述行为可通过该用户的用户帐户登录的设备实现,例如,用户通过用户帐户登录的设备在一天内多次访问视频类应用程序。
在一个或多个可选实施例中,从画像数据中提取对象的画像特征和从行为数据中提取对象的行为特征时,可以采用深度神经网络模型进行特征提取,该深度神经网络模型可以分别是用于提取画像特征的画像模型和用于提取行为特征的行为模型,其中,画像模型可以是采用多组画像训练数据进行训练得到的,多组画像训练数据中包括:画像数据和该画像数据对应的画像特征;行为模型可以是采用多组行为训练数据进行训练得到的,多组行为训练数据中包括:行为数据和该行为数据对应的行为特征。采用深度神经网络模型对特征进行提取,不仅效率高,而且准确。
在一个或多个可选实施例中,由于对象的不确定性,因此,对象的画像数据和对象对应于第一业务的行为数据都可能出现不完整的情况,因而导致依据对象的画像数据提取的画像特征和依据对象对应于第一业务的行为数据提取的行为特征也会出现不完整的情况。而数据不完整导致提取的特征不完整,会导致活跃度增益模型预测的活跃度提升结果也不准确。因此,为使得采用活跃度增益模型预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果更为准确,在向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果之前,可以对画像特征和/或行为特征进行缺失性检测;在画像特征和/或行为特征存在缺失的情况下,填充画像特征和行为特征缺失的特征。在填充画像特征和行为特征缺失的特征时,可以采用多种方式,例如,可以对画像特征和行为特征缺失的特征进行填充比如,在对象对应于第一业务的行为数据为用户(通过该用户的用户帐户登录的设备)访问视频类应用的数据时,如果该用户缺失是否会浏览该视频类应用的特征时,可以填充该用户会浏览该视频类应用的特征;又比如,如果该用户缺失一个月内浏览该视频类应用的次数的特征时,可以依据事先统计的平均值进行填充,等。
在一个或多个可选实施例中,向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果时,依据活跃度增益模型的训练方式不同,对应地也可以采用活跃度增益模型不同的预测方式进行预测结果。下面分别说明。
(1)训练方式一
活跃度增益模型是采用以下实验组数据和控制组数据一起进行训练得到:实验组数据包括实验对象的画像数据的画像特征、对应于第二业务的行为数据的行为特征、以及实验对象对应于第二业务的活跃度提升概率;控制组数据包括控制对象的画像数据的画像特征、对应于第一业务的行为数据的行为特征、以及控制对象对应于第一业务的活跃度提升概率。
在活跃度增益模型采用上述训练方式一训练得到的情况下,向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,可以包括:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升概率;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升概率;将第一活跃度提升概率和第二活跃度提升概率分别与第一提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果。
上述活跃度提升结果包括以下之一:
对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;
对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;
对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;
对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升。
需要说明的是,上述第一提升概率阈值可以是对历史数据进行统计得到的。例如,收集预定数量的用户的对应于第一业务的行为数据,统计该预定数量的用户在预定时间内(比如,一个月)对应于第一业务的活跃度提升概率,对上述预定数量的用户分别对应的第一业务的活跃度提升概率取平均,得到平均活跃度提升概率(例如,为10%),并将该平均活跃度提升概率作为该第一提升概率阈值。将第一活跃度提升概率与该第一提升概率阈值进行比较,在该第一活跃度提升概率大于该第一提升概率阈值时,则认为对象假设为实验对象对应于第二业务的活跃度有提升;在该第一活跃度提升概率小于该第一提升概率阈值时,则认为对象假设为实验对象对应于第二业务的活跃度没有提升。在该第二活跃度提升概率大于该第一提升概率阈值时,则认为对象假设为控制对象对应于第一业务的活跃度有提升;在该第二活跃度提升概率小于该第一提升概率阈值时,则认为对象假设为控制对象对应于第一业务的活跃度没有提升。
(2)训练方式二
活跃度增益模型是采用以下数据实验组数据和控制组数据一起进行训练得到:实验对象的画像数据的画像特征、对应于第二业务的行为数据的行为特征、以及实验对象对应于第二业务的活跃度提升结果;和控制对象的画像数据的画像特征、对应于第一业务的行为数据的行为特征,以及控制对象对应于第一业务的活跃度提升结果。
在活跃度增益模型采用上述训练方式二训练得到的情况下,向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,可以包括:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升结果;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升结果。
上述活跃度提升结果包括:第一活跃度提升结果和第二活跃度提升结果,其中,第一活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第二活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
需要说明的是,上述训练方式二中的实验对象对应于第二业务的活跃度提升结果;和控制对象对应于第一业务的活跃度提升结果可以是在上述训练方式一中的活跃度增益模型预测得到的第一活跃度提升概率和第二活跃度提升概率分别与第一提升概率阈值进行比较后得到的结果。举例而言,当第一活跃度提升概率大于该第一提升概率阈值时,则确定该对象假设为实验对象对应于第二业务活跃度有提升;当第一活跃度提升概率不大于该第一提升概率阈值时,则确定该对象假设为实验对象对应于第二业务活跃度没有提升;当第二活跃度提升概率大于该第一提升概率阈值时,则确定该对象假设为控制对象对应于第一业务活跃度有提升;当第二活跃度提升概率不大于该第一提升概率阈值时,则确定该对象假设为控制对象对应于第一业务活跃度没有提升。相对于采用上述训练方式一中得到的活跃度增益模型而言,该训练方式二训练的活跃度增益模型可以预测对象假设为实验对象对应于第二业务的第一活跃度提升结果和直接预测对象假设为控制对象对应于第一业务的第二活跃度提升结果。其中,该第一活跃度提升结果反映对象假设为实验对象对应于第二业务活跃度是否有提升,该第二活跃度提升结果反映对象假设为控制对象对应于第一业务活跃度是否有提升。因此,采用训练方式二训练的活跃度增益模型预测的结果较为直接,方便。
(3)训练方式三
活跃度增益模型是采用实验组数据和控制组数据分开进行训练得到。采用以下实验组数据训练得到第一活跃度增益模型:实验对象的画像数据的画像特征、对应于第二业务的行为数据的行为特征、以及实验对象对应于第二业务的活跃度提升结果。采用以下控制组数据训练得到第二活跃度增益模型:控制对象的画像数据的画像特征、对应于第一业务的行为数据的行为特征、以及控制对象对应于第一业务的活跃度提升结果。
在活跃度增益模型采用上述训练方式三训练得到的情况下,向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,可以包括:假设对象为实验对象,向第一活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第三活跃度提升概率;假设对象为控制对象,向第二活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第四活跃度提升概率;将第三活跃度提升概率和第四活跃度提升概率分别与第二提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果。
活跃度提升结果包括以下之一:
对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;
对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;
对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;
对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升。
需要说明的是,上述第二提升概率阈值可以采用与上述第一提升概率阈值的方式相同。上述第二提升概率阈值与上述第一提升概率阈值的取值可以相同,也可以不同。
在对活跃度增益模型进行训练时,除了可以采用实验组和控制组数据进行统一训练的方式,得到对应的一个活跃度增益模型。为提高活跃度增益模型训练的精度或者准确度,在对活跃度增益模型进行训练时,还可以采用对实验组数据和控制组数据进行分离训练的方式。通过对实验组数据和控制组数据进行分离训练的方式,依据实验组数据训练出第一活跃度增益模型,依据控制组数据训练出第二活跃度增益模型,由于第一活跃度增益模型和第二活跃度增益模型训练时是有针对性的,因而采用训练好的第一活跃度增益模型对对象假设为实验组对象进行预测时,得到的预测值也会相对准确;采用训练好的第二活跃度增益模型对对象假设为控制组对象进行预测时,得到的预测值也会相对准确。预测结果的提升在一定程度上也能够使得对对象划分类型也更准确。
(4)训练方式四
活跃度增益模型是采用以下数据实验组数据和控制组数据分开进行训练得到:实验对象的画像数据的画像特征、对应于第二业务的行为数据的行为特征、以及实验对象对应于第二业务的活跃度提升结果;和控制对象的画像数据的画像特征、对应于第一业务的行为数据的行为特征、以及控制对象对应于第一业务的活跃度提升结果。
在活跃度增益模型采用上述训练方式四训练得到的情况下,向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,可以包括:向活跃度增益模型输入画像特征和行为特征,预测对象属于四个类别中各类别的概率,其中,四个类别包括:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;根据对象属于四个类别中各类别的概率,确定对象假设为实验对象对应于第二业务的第三活跃度提升结果和对象假设为控制对象对应于第一业务的第四活跃度提升结果。
活跃度提升结果包括:第三活跃度提升结果和第四活跃度提升结果,其中,第三活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第四活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
需要说明的是,采用活跃度增益模型预测对象假设为实验对象时,属于四个类别中各类别的概率,依据属于四个类别中概率的最大值,确定对象假设为实验对象时所属的类别;以及采用活跃度增益模型预测对象假设为控制对象时,属于四个类别中各类别的概率,依据属于四个类别中概率的最大值,确定对象假设为控制对象时所属的类别。举例来说,采用活跃度增益模型预测对象假设为实验对象时,属于四个类别中各类别的概率(p1,p2,p3,p4),依据属于四个类别中概率的最大值max{p1,p2,p3,p4},确定对象假设为实验对象时所属的类别;采用活跃度增益模型预测对象假设为控制对象时,属于四个类别中各类别的概率(p5,p6,p7,p8),依据属于四个类别中概率的最大值max{p5,p6,p7,p8},确定对象假设为控制对象时所属的类别。
在一个或多个可选实施例中,不管采用哪种训练方式得到的活跃度增益模型对对象进行预测,在确定对象分别对应于第二业务和对应于第一业务的活跃度提升结果之后,还可以根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型,包括以下之一:在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为确认型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为敏感型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为勿扰型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为沉睡型。
需要说明的是,上述确认型表征的是对象假设为实验对象对应于第二业务的活跃度、以及假设为控制对象时对应于第一业务的活跃度均表示有提升的情况,即该确认型表征无论是否对业务改变,对象的活跃度均能够正常提升,因此,无需对对象进行干扰,避免不必要的投入。
敏感型表征的是对象假设为实验对象时对应于第二业务的活跃度有提升、以及假设为控制对象对应于第一业务的活跃度没有提升的情况,即该敏感型表征对业务的改变,是能够转换为活跃度提升的,因此,对对象的干扰是有益的,需要对对象进行干扰。
勿扰型表征的是对象假设为实验对象时对应于第二业务的活跃度没有提升、以及假设为控制对象对应于第一业务的活跃度有提升的情况,即该勿扰型表征对业务进行改变会对该对象起到相反的作用,在一定程度上表示对象对该改变是反感的,因此,不能对对象进行干扰。
沉睡型表征的是对象假设为实验对象时对应于第二业务的活跃度没有提升、以及假设为控制对象对应于第一业务的活跃度也没有提升的情况,即该沉睡型表征无论对业务是否进行改变,都不会提升对象在业务上的活跃度,因此,也无需对对象进行干扰,进行防止流失的正常处理即可。
可选地,通过以下方式,确定对象分别对应于第二业务和对应于第一业务的活跃度提升结果:获取活跃度增益模型输出的对应于第二业务的活跃度提升概率、对应于第一业务的活跃度提升概率;以时间为横坐标、以对应于第二业务的活跃度提升概率为纵坐标,生成对象的第一生存曲线;以时间为横坐标、以对应于第一业务的活跃度提升概率为纵坐标,生成对象的第二生存曲线;确定第一生存曲线与坐标轴构成的第一面积和第二生存曲线与坐标轴构成的第二面积;根据第一面积与第二面积,确定对象对应于第二业务和对应于第一业务的活跃度提升结果。
举例而言,第一生存曲线表征的是,对象假设为实验对象对应于第二业务的活跃度提升概率依据时间变化而变换的曲线,因此,对第一生存曲线依据以时间变量进行积分,得到的即是该对象假设为实验对象在一段时间内的活跃度提升概率,即对应于第一生存曲线与坐标轴形成的第一面积。第二生存曲线表征的是,对象假设为控制对象对应于第一业务的活跃度提升概率依据时间变化而变换的曲线,因此,对第二生存曲线依据以时间变量进行积分,得到的即是该对象假设为控制对象在一段时间内的活跃度提升概率,即对应于第二生存曲线与坐标轴形成的第二面积。
在根据第一面积确定对象对应于第二业务和对应于第一业务的活跃度提升结果时,可以采用多种方式,例如,可以比较第一面积与第一面积阈值,当第一面积大于第一面积阈值时,确定对象假设为实验对象对应于第二业务的活跃度有提升;当第一面积不大于第一面积阈值时,确定对象假设为实验对象对应于第二业务的活跃度没有提升;当第二面积大于第一面积阈值时,确定对象假设为控制对象对应于第一业务的活跃度有提升;当第二面积不大于第一面积阈值时,确定对象假设为控制对象对应于第一业务的活跃度没有提升。又例如,可以采用将第一面积与第二面积进行求差运算,得到差值,比较该差值与正负差值阈值,当差值大于正差值阈值时,确定对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;当差值不大于正差值阈值时,确定对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;当差值不大于负差值阈值时,确定对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;当差值大于负差值阈值时,确定对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升。
采用生存曲线面积的统计学差异来表征对象的活跃度提升结果,不仅符合长期的互联网业务的特点,而且展示结果直观,准确。
图3是根据一示例性实施例示出的数据处理方法二的流程图,如图3所示,该方法包括以下步骤。
在步骤S31中,获取样本数据集,其中,样本数据集包括实验组数据和控制组数据,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,第一业务为第二业务的旧版本业务。
在步骤S32中,提取实验对象的画像数据的画像特征和行为数据的行为特征,以及提取控制对象的画像数据的画像特征和行为数据的行为特征。
在步骤S33中,采用实验对象的画像数据的画像特征和行为数据的行为特征作为输入,实验对象对应于第二业务的活跃度提升结果作为输出,以及采用控制对象的画像数据的画像特征和行为数据的行为特征作为输入,控制对象对应于第一业务的活跃度提升结果作为输出,对活跃度增益模型进行训练。
采用上述处理,采用上述实验组数据和控制组数据对活跃度增益模型进行训练,第一业务为第二业务的旧版本业务,对象分别对应于第二业务的活跃度提升结果与对应于第一业务的活跃度提升结果可以是一段比较长时间内的影响,因而实现了对长期业务场景下,提供了对对象划分类型的活跃度增益模型的训练,从而为依据活跃度增益模型预测的活跃度提升结果对对象划分类型提供了基础,解决了相关技术中无法针对长期业务场景下,无法得到对对象划分类型的模型的问题,达到了能够训练出较为准确的活跃度增益模型,进而能够顺利地对对象划分类型,实现针对不同对象执行不同策略处理的效果。
需要说明的是,活跃度增益模型可以采用多种方式进行训练,例如,可以采用以下四种方式进行训练,下面具体说明。需要说明的是,在对活跃度增益模型进行训练时,均是对活跃度增益模型的模型参数不断优化的过程。将实验对象的画像特征和行为特征输入该活跃度增益模型,得到实验预测结果,依据实验预测结果与真实实验结果之间的差异,不断调整模型参数,使得实验预测结果与真实实验结果尽量一致。以及将控制对象的画像特征和行为特征输入该活跃度增益模型,得到控制预测结果,依据该控制预测结果与真实控制结果之间的差异,不断调整模型参数,使得控制预测结果与真实控制结果尽量一致。需要说明的是,上述预测结果与真实值之间的差异可以通过构造损失函数来表征,调整模型参数来优化活跃度增益模型的过程,即可以认为是使损失函数的取值最小化的过程。
模型训练方式一:
对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第一活跃度提升预测概率;比较第一活跃度提升预测概率与第一提升概率阈值,得到实验对象对应于第二业务是否有提升的第一活跃度提升预测结果;确定第一活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第一差异;根据第一差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第二活跃度提升预测概率;比较第二活跃度提升预测概率与第一提升概率阈值,得到控制对象对应于第一业务是否有提升的第二活跃度提升预测结果;确定第二活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第二差异;根据第二差异,优化活跃度增益模型的模型参数。
需要说明的是,上述模型训练方式一中,不需要对实验组数据和控制组数据进行划分,即是通过实验组数据和控制组数据进行统一训练得到的。上述所提到的第一提升概率阈值可以与上述应用活跃度增益模型预测时的第一提升概率阈值相同,即获取方式可以相同,取值也可以相同等。
模型训练方式二:
对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测结果;确定第三活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第三差异;根据第三差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测结果;确定第四活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第四差异;根据第四差异,优化活跃度增益模型的模型参数。
需要说明的是,依据实验对象的画像数据的画像特征和行为数据的行为特征,以及实验对象对应于第二业务的活跃度提升结果,以及依据控制对象的画像数据的画像特征和行为数据的行为特征,以及控制对象对应于第一业务的活跃度提升结果,对活跃度增益模型进行训练,由于是依据活跃度提升结果进行训练的,因而能够在一定程度上简化模型的训练。
模型训练方式三:
对活跃度增益模型进行训练包括:向第一活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测概率,比较第三活跃度提升预测概率与第二提升概率阈值,得到实验对象对应于第二业务的第五活跃度提升预测结果;确定第五活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第五差异;根据第五差异,优化第一模型的模型参数;向第二活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测概率,比较第四活跃度提升预测概率与第二提升概率阈值,得到控制对象对应于第二业务的第六活跃度提升预测结果;确定第六活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第六差异;根据第六差异,优化第二模型的模型参数。
需要说明的是,采用将实验组数据进行训练得到第一活跃度增益模型,和采用控制组数据进行训练得到第二活跃度增益模型;之后,对对象进行预测时,在将对象假设为实验对象时采用第一活跃度增益模型进行预测,在将对象假设为控制对象时采用第二活跃度增益模型进行预测,由于训练有针对性,因而能够提升预测结果的准确性。
另外,上述所提到的第二提升概率阈值可以与上述应用活跃度增益模型预测时的第二提升概率阈值相同,即获取方式可以相同,取值也可以相同等。
模型训练方式四:
对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象属于四个类别中各类别的概率;以及向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象属于四个类别中各类别的概率,其中,四个类别包括:实验对象对应于第二业务活跃度有提升,实验对象对应于第二业务活跃度没有提升,控制对象对应于第一业务活跃度有提升,控制对象对应于第一业务活跃度没有提升;根据得到的实验对象属于四个类别中各类别的概率确定实验对象所属的类别,确定实验对象所属的类别与实验对象对应于第二业务的活跃度提升结果之间的第七差异,优化活跃度增益模型的模型参数;以及根据得到的控制对象属于四个类别中各类别的概率确定控制对象所属的类别,确定实验对象所属的类别与控制对象对应于第一业务的活跃度提升结果之间的第八差异,优化活跃度增益模型的模型参数。
其中,采用实验对象的画像数据的画像特征和行为数据的行为特征,以及实验对象属于四个类别中各类别的概率;和控制对象的画像数据的画像特征和行为数据的行为特征,以及控制对象属于四个类别中各类别的概率,对活跃度增益模型进行训练的方式,由于直接依据对象属于四个类别中各类别的概率进行训练,可以在一定程度上提升模型的训练效率。
在一个或多个可选实施例中,由于活跃度增益模型训练的好坏,不仅在于训练方式的选择上,而且在较大程度上取决于所选取的样本的优劣。如果所选择的样本质量较好,不仅能够达到较高的训练效率,而且训练得到的质量也会高。
因此,为使得模型训练得到较好的效果,在对活跃度增益模型进行训练之前,对用于训练的样本数据进行处理。比如,可以根据预定剪裁条件,对实验组数据进行剪裁,获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据;和/或,根据预定剪裁条件,对控制组数据进行剪裁,获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据。
在一个或多个可选实施例中,在获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据时,可以采用以下处理方式:确定实验组数据中的第一数据为第一正样本数据,确定实验组数据中的第二数据为第一负样本数据,其中,第一数据为实验对象对应于第二业务的活跃度提升超过第一预定数值的实验组数据,第二数据为实验对象对应于第二业务的活跃度降低超过第二预定数值的实验组数据。
在一个或多个可选实施例中,在获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据,可以采用以下处理方式:确定控制组数据中的第三数据为第二正样本数据,确定控制组数据中的第四数据为第二负样本数据,其中,第三数据为控制对象对应于第一业务的活跃度提升超过第三预定数值的控制组数据,第四数据为控制对象对应于第一业务的活跃度降低超过第四预定数值的控制组数据。
在一个或多个可选实施例中,决定模型训练的收敛速度,在考虑上述模型训练方式,训练样本质量的好坏外,还与模型的初始状态有关。比如,模型的初始状态较优的话,在其它条件均相同的情况下,得到满足预定要求的模型也会更快。例如,在本可选实施例中,在对活跃度增益模型进行训练之前,还包括:根据实验组数据和控制组数据,确定用于模型训练的建议选项,其中,建议选项包括用于选择模型参数阈值的第一选项和用于选择对模型训练的样本集进行操作的操作方式的第二选项;展示建议选项。
在一个或多个可选实施例中,根据实验组数据和控制组数据,确定用于模型训练的建议选项,包括:根据实验组数据和控制组数据,统计出实验对象和控制对象的生存概率曲线和/或风险比例曲线,其中,生存概率曲线用于表示实验对象在预定时间段内在第二业务上再次活跃的概率分布,或者控制对象在预定时间段内在第一业务上再次活跃的概率分布,风险比例曲线用于表示实验对象在预定时间段内的时间点上再次活跃的概率分布,或者控制对象在预定时间段内的时间点上再次活跃的概率分布;根据生存概率曲线和/或风险比例曲线,确定生存概率曲线和/或风险比例曲线发生转折或者突变的数据点;根据数据点的参数值,确定模型训练的建议参数阈值和对模型训练的样本集进行操作的操作方式。
需要说明的是,上述生存概率曲线和风险比例曲线表征的是均是对象在一段时间内再次活跃的概率,生存概率曲线是这段时间内的概率累积,而风险比例曲线是这段时间对应时间点的概率。两者均是通过对实验组数据和控制组数据进行统计获得的,依据统计的结果,对用于模型训练的参数阈值进行调整,或者对模型训练的样本集进行操作的操作方式进行更改。该预定时间段可根据情况自定义。下面举例说明。
依据生存概率网线和/或风险比例曲线确定参数阈值时:假设在未使用生存概率网线和/或风险比例曲线时,用于模型训练时,是以月为单位,统计对象的活跃度的,比如,统计的是月活跃度;在根据上述真实数据获取到生存概率网线和/或风险比例曲线后,根据生存概率曲线和/或风险比例曲线的特点,可以发现在生存概率曲线和/或风险比例曲线在某一数据点(比如,某一时间点)就转变为逐步衰减的过程,出现该过程表征在这个时间点后对象就不会再次活跃在业务上了,或者再次活跃在业务上的概率几乎没有。因此,原来以月为单位对应的月活跃度进行模型训练就不合适了,因此,需要修改为以周为单位的周活跃度进行模型训练。此处的以月为单位调整为以周为单位即是上述所指的用于模型训练的参数阈值的调整。
依据生存概率曲线和/或风险比例曲线确定对模型训练的样本集进行操作的操作方式时:同样依据上述生存概率曲线和/或风险比例曲线的曲线特点,可以看出对象的活跃度提升概率提升多少,在统计学上是显著的。该提升多少即可以用于对模型训练的样本集进行操作。举例来说,从生存概率曲线和/或风险比例曲线的统计结果来看,对于活跃度提升20%,提升是显著的,而活跃度提升小于20%,提升是不显著的,因此,可以依据是否提升20%来对样本集中的样本进行裁剪,得到用于模型训练的正样本,从而使得用于模型训练的正样本的质量较高,进而达到模型训练优化的目的。同样,对于样本集中的负样本也可以采用上述方式,比如,从生存概率曲线和/或风险比例曲线的统计结果来看,对于活跃度降低20%,降低是显著的,而活跃度降低小于20%,降低是不显著的,因此,可以依据是否降低20%来对样本集中的样本进行裁剪,得到用于模型训练的负样本,从而使得用于模型训练的负样本的质量较高,进而达到模型训练优化的目的。
为优化活跃度增益模型的训练,在对活跃度增益模型进行训练之前,在确定活跃度增益模型的初始状态时,避免模型参数选择的盲目性,根据该实验组数据和控制组数据确定绘制的规律曲线(例如,上述所指的生存概率曲线和风险比例曲线),确定曲线发生变化的转折点或者突变点,根据该转折点或者突变点,确定模型训练的建议参数阈值和建议模型训练方式。
在一个或多个可选实施例中,为进一步提高模型训练的准确度,也可以采用上述对对象的数据进行处理的方式,对用于模型训练的样本数据也进行处理,例如,对用于模型训练的样本数据中不完整的数据进行补充。即,在对活跃度增益模型进行训练之前,还包括:检测实验组数据和控制组数据缺失的特征;对检测出的缺失特征进行填充与编码。在填充样本数据对应的画像特征和行为特征缺失的特征时,也可以采用上述所指出的多种方式,例如,可以对画像特征和行为特征缺失的特征进行定性或者定量地填充,在此不再赘述。
结合上述实施例及可选实施例,提供了一种可选实施方式。
该可选实施方式互联网用户AB实验场景为例,采取上提升(uplift)模型作为敏感目标用户的筛选准则。图4是根据一示例性实施例示出的上提升模型(uplift model)的原型示意图,如图4所示,基于该上提升模型的原理,在实施例中,将该上提升模型运用于互联网业界的AB实验中寻找实验组中真正取得收益的人群。具体来说,由于被AB实验分流的人群不能同时隶属于实验组和控制组,但可以通过一系列因果推断方法,得到实验组人群相对于他们同时处于虚拟事实世界(counter-factual)中的控制组的表现差异,该表现差异被称为上提升值(uplift),而由此建立的模型被成为上提升模型。其中,真正取得收益的人群是处于实验组相对于处于控制组有显著活跃指标提升的人群。
如上,在相关技术中,选择目标用户的方法仅适用于短期交易的场景,并不适用于互联网业务场景。另外,在相关技术中,一般采用预训练的模型来对对象进行预测,但预训练的模型有很大的数据局限性。而互联网业务场景千差万别,互联网业务场景更加偏重于内容功能的迭代更新,从而促进用户粘性和留存。由于用户粘性是一个长期指标,业务场景的迭代无法很快反映到用户具体的表现上(例如,界面样式的改变,使得用户一段时间的整体活跃程度变换)。因此,相关技术中的营销模型指标的设定不符合互联网业务场景,在筛选互联网用户群的优化目标时缺少长期行为刻画的合适衡量指标和独立技术方案。
鉴于相关技术中的上述问题,在本可选实施方式中,提供了一种自动化解决互联网实验中对敏感用户群的筛选平台,使用者(例如,互联网技术工作人员)可以依照用户长期活跃度的指标,输入数据集,并设置单模态混合训练方式/多模态分离训练方式,施加处理与结果变量,就可以自动运行模型建立-模型训练-模型调优-模型算法评测的过程,生成结果变量对于实验处理敏感的四象限人群以及模型的评测结果面板。因此,本可选实施方式提供的是一种平台即服务(Platform-as-a-Sevice,简称为PaaS),而并非简单的软件即服务(Software-as-a-Service,简称为SaaS)。通过本可选实施方式,使用者可以定制训练模型的训练数据,训练模型的模型参数,训练模型的模型方法,以及训练模型的训练方式等,满足个性化的要求。例如,上述样本数据集可以是使用者根据自己的需求定制的。
因此,本实施例可根据用户设定的时间轴,确定筛选的用户数据及其长期在App上的活跃度表现(例如,生存曲线下的面积变化/差异)。例如,利用单模态混合训练方式/多模态分离训练方式进行训练,并调整模型学习策略与模型的参数调优,最终输出一定时期内,对业务变化不同敏感程度的人群分类,并基于该分类提供对应的策略建议与评估。其中,用于评价用户长期活跃度的指标可以是多种,即上述活跃度的改变可以有多种,例如,如上,可以采用对象的生存曲线的面积变化来表征。图5是根据一示例性实施例示出的采用生存曲线的面积变化表征长期活跃度的指标的示意图,如图5所示,该生存曲线的面积变化/差异表示用户活跃度,其物理意义可以是用户再次访问应用程序的天数期望值,需要说明的是,长期活跃度的指标也可以是其它,例如,可以是用户在一个月内访问应用的天数,等。
图6是根据一示例性实施例示出的模型训练系统的示意图,如图6所示,采用该模型训练系统进行模型训练时,可以包括以下几个模块的处理:数据读取与上提升剪裁模块、用户群生存分析模块、工具类处理模块、单模态/多模态训练模块、结果预测与策略响应模块。在对示例性的可选实施方式进行说明之前,对基于互联网场景下的各个因素进行说明:
实验组(treatment):接收到实验处理的用户群体,用户长期活跃度的改变是自然特征时序变化和实验处理的叠加效果。需要说明的是,此处的实验处理可以是改变业务,以使用户帐户登录的设备访问改变后的业务,例如使用户帐户登录的设备访问前述第二业务。实验组所指的用户群体即是实验对象,实验对象可以是用户帐户,作为实验对象的用户帐户登录的设备访问改变后的业务(例如前述第二业务)。
控制组(control):未接收到实验处理的用户群体,用户长期活跃度的改变仅由自然特征时序变化带来。需要说明的是,此处的未接收到实验处理可以是使用户帐户登录的设备访问改变前的业务,即旧版本业务,例如使用户帐户登录的设备访问前述第一业务。控制组所指的用户群体即是控制对象,控制对象可以是用户帐户,作为控制对象的用户帐户登录的设备访问改变前的业务(例如前述第一业务)。
上提升裁剪(uplift tailor):对实验组和控制组用户群体进行裁剪划分,包括:是否裁剪(uplift_cal),裁剪方式(uplift_method),裁剪大小(uplift_thres)等。
工具类处理(utility processor):对实验组和控制组数据进行互联网用户智能画像刻画,缺失值检测/填充,特征编码以及模态切分(仅适用于beta方法)等。
生存分析(survival analysis):在互联网业务中对于用户群进行长期活跃度的研究,这里采用用户群生存曲线的面积作为上提升目标人群的优化指标,例如,可以表征用户再次访问应用程序的天数期望值。
模态选择(modal selection):分为单模态混合训练(alpha方法)和多模态方法(beta方法)两种。
下面对模型训练系统所包括的各个模块分别说明。
1.数据读取与上提升剪裁模块(用于实现数据集的读取和对数据集的上提升剪裁操作)
差别于一般的机器学习建模过程,互联网AB实验数据中需要对比二元数据集的情况下实验组和控制组的用户表现,在实验数据读取的过程中,alpha方法会将实验组和控制组混合打散形成带有实控标签的全量数据集,beta方法则分别读入生成两个分离的数据集。上提升裁剪过程中,Omnipolift服务器会依托目标结果特征进行自主选择计算上提升标签,例如,可以选择设置参数uplift_cal=1(选择计算上提升),uplift_method=’survival’(生存模式),uplift_thres(0.2),uplift_range=30。依据上述选择设置的参数,可以根据用户在未来30天内再访App的生存曲线的面积,自动计算出生存概率提升20%以上的为正样本,生存概率降低20%以上的为负样本,其余样本舍弃。
2.用户群生存分析模块(用于实现对训练前的数据集的分析,得到进行模型训练的建议的模型训练参数)
例如,为提供互联网技术人员在针对用户数据训练前的洞察,Omnipolift服务器增设了用户群生存分析模块,通过该模块探究其用户长期活跃指标,使用者在输入要研究的用户历史画像与行为数据的时候,Omnipolift服务器会返回实验组和控制组用户群的KM曲线(该曲线表征的是,在一段时间内再次访问App的概率分布)、用户群风险比例曲线(该曲线表征的是,在该一段时间内的时间点访问App的概率分布),根据返回的上述曲线数据,建议进行模型训练的概率阈值及操作方式。例如,在研究界面样式对于互联网消费者的长期活跃影响时,Omnipolift服务器发现在35天周期内实验组和控制组人群产生了统计显著的生存概率差异,confidence interval(置信区)的中间点位于0.15,Omnipolift服务器则会返回uplift_thres=0.15,uplift_range=35作为建议参数,这一过程也可以在执行uplift_method的设置时通过设置uplift_method=’auto’实现。
3.工具类处理模块(用于实现对训练前的数据的特征的缺失检测,填充,编码操作等)
在选取合适的上提升裁剪方式后,工具类处理模块提供互联网用户智能画像刻画,缺失值检测/填充,特征编码以及模态切分方法(适用于beta方法)。例如,设置profiling参数为1,Omnipolift服务器会连接数据库生成动态html网页,其中,包括用户档案信息,各画像特征与行为特征的维度拆解与协同关联,fillna/encoder则会自动检测各特征变量缺失程度并进行多方式填充与编码,如需使用beta类方法,则需对实验组和控制组数据集进行模态切分。
4.单模态/多模态训练模块(用于实现模型训练的方法,包括单模态混合训练方法和多模态分离训练方法)
单模态混合训练方法包括:单模态混合训练方法1和单模态混合训练方法2,下面分别说明。
单模态混合训练方法1(one-model):将实控数据的标签混合其他特征变量打散输入到模型训练中,在模型选择参数迭代后,得到训练好的模型。之后,依据训练好的模型得到每一个数据点X_i提升的概率值(例如,计算该组用户在本组中月活跃度提升的概率p1),再对每一个数据点X_i进行实控标签反转后,计算模型上提升预测值(例如,计算该组用户如果在另一个组的虚拟情况下,其月活跃度提升的概率p2),通过两者之差(delta_p=p1-p2)计算从虚拟的控制组跃迁到真实的实验组后用户月活跃度提升的概率。
举例:
输入一组实控数据X(即实验组数据和控制组数据,分别均包括画像数据和行为数据)以及表征实验组/控制组数据的标签A,通过模型M预测每个数据点在当前归属组别的活跃度提升概率p1,再对每个数据点进行实验/控制组标签反转(实验组-->控制组控制组-->实验组)。重新放入模型M预测假设每个用户在另一个组的活跃度提升概率p2,p1-p2即可将用户处于实验组和控制组的活跃度提升差异刻画出来。
单模态混合训练方法2(class-transformation):将实控数据的标签与上提升结果变量联立生成转换结果变量,将实控数据的标签混合打散输入到模型训练中,在参数选择迭代后模型的结果在数学推导上自然表征上提升人群。该方法是相对于单模态混合训练方法1的标签转换法,效率能够得到有效提升。
举例:
输入一组实控数据X(即实验组数据和控制组数据,分别均包括画像数据和行为数据)以及表征实验组/控制组数据的标签A,并将标签A与活跃度提升结果变量Y联立生成转换结果变量Z,比如:
如果A为实验组标签且活跃度提升结果变量为正向,结果变量Z=2。
如果A为实验组标签且活跃度提升结果变量为负向,结果变量Z=0。
如果A为控制组标签且活跃度提升结果变量为正向,结果变量Z=-2。
如果A为控制组标签且活跃度提升结果变量为负向,结果变量Z=0。
通过模型M预测每个数据点在当前归属组别的转换结果变量Z,经过数学推导可以证明,Z的取值可将用户处于实验组和控制组的活跃度提升差异表征出来。
多模态分离训练方法包括:多模态分离训练方法1和多模态分离训练方法2,下面分别说明。
多模态分离训练方法1(two-model):将实验组和控制组的用户拆分成两个分离的数据集,采用相同的标准(例如,入组首日前后的月活跃度差异)计算上提升目标变量及相关特征,在相同的模型结构下分别训练出来针对两个分离的数据集的模型,之后,采用训练出来的模型分别对每一个数据点X_i计算两个概率值表征(例如,计算A组用户在A组中月活跃度提升的概率p_a1,计算B组用户在B组中月活跃度提升的概率p_b1)。再对每一个数据点X_i进行实控标签反转后,计算模型上提升预测值(例如,计算A组用户假设在虚拟的B组中月活跃度提升的概率p_b2,计算B组用户在虚拟的A组中月活跃度提升的概率p_a2)。通过两者之差(delta_pa=p_a1-p_b2,delta_pb=p_b1-p_a2)计算从虚拟的控制组跃迁到真实的实验组后用户月活跃度提升的概率。
举例:根据表征实验组/控制组数据的标签A将数据集切分为X_treat(实验组)X_control(控制组),分别构造相同参数的模型M1、M2,利用X_treat(实验组)数据集进行训练学习,得到模型M1,利用X_control(控制组)数据集进行训练学习,得到模型M2,过程如下。
1)通过模型M1训练并预测X_treat在当前归属组别的活跃度提升概率p_a1。
2)通过模型M2训练并预测X_control在当前归属组别的活跃度提升概率p_b1。
3)通过已训练好的模型M2预测X_treat假设在控制组别的活跃度提升概率p_b2。
4)通过已训练好的模型M1预测X_control假设在实验组别的活跃度提升概率p_a2。
再对每个数据点进行相应的差分比较,具体地,delta_pa=p_a1-p_b2表征实验组人群在实验组和控制组提升的活跃度差异,delta_pb=p_b1-p_a2表征控制组人群在控制组和实验组提升的活跃度差异,根据活跃度差分后的不同取值可以将人群归属至不同的类型。
多模态分离训练方法2(four-quadrant):将实验组和控制组的用户拆分成两个分离的数据集,采用相同的标准(例如,入组首日前后的月活跃度差异)计算上提升目标变量及相关特征,在相同的模型结构下分别训练出来针对两个分离的数据集的模型,之后,采用训练出来的模型分别对每一个数据点X_i计算四个概率值表征(例如,计算用户在A组中月活跃度提升的概率pa_up,用户在A组中月活跃度下降的概率pa_down,用户在B组中月活跃度提升的概率pb_up,用户在B组中月活跃度下降的概率pb_down,其中A组可以是实验组,B组可以是控制组)。通过四者的比较计算每个用户最佳的分配方案,即划分每个用户所属的类型。
举例:根据表征实验组/控制组数据的标签A将数据集切分为X_treat(实验组)X_control(控制组),建立一个模型M分别预测其处于四个象限下的概率。
1)如果A为实验组标签且活跃度提升结果变量为正向,类别编码变量Z=(1,0,0,0)。
2)如果A为实验组标签且活跃度提升结果变量为负向,类别编码变量Z=(0,1,0,0)。
3)如果A为控制组标签且活跃度提升结果变量为正向,类别编码变量Z=(0,0,1,0)。
4)如果A为控制组标签且活跃度提升结果变量为负向,类别编码变量Z=(0,0,0,1)。
通过模型M预测人群在四个类别编码下的不同概率(p1,p2,p3,p4),即对应上述的(pa_up,pa_down,pb_up,pb_down)。通过计算数学期望与真实值之间的差异来优化模型参数,模型训练完成后的max{p1,p2,p3,p4}即为该用户归属的类别。
5.结果预测与策略响应模块(用于通过训练好的模型对用户进行预测,得到预测结果,并对不同分类的用户执行对应的策略)
上提升模型算法一般采用qini curve作为模型训练的指标,即实验组与控制组的上提升人群占该组总人群比例之差的曲线图示。这样的划分方式会导致qini curve自然的膨胀并且缺乏互联网的业务意义。为克服上述缺陷,在本优选实施方式中,在模型训练与参数优化的过程中,将不同目标类型的人群在测试集中生存曲线面积的统计学差异作为互联网用户模型训练的指标,并采用贝叶斯优化器自动配置模型所需要的最佳参数。需要说明的是,上述的测试集是相对于训练集而言的,采用训练集进行学习训练,得到训练好的模型。得到训练好的模型后,一般会采用测试集对该训练好的模型进行测试,依据测试集得到的结果与测试集的真实数据进行比较,使用求得的偏差对模型进行修正,得到修正后的模型。因此,测试集是对模型应用于真实场景前的一次测试,并依据测试结果优化的过程。在对用于训练集和测试集的数据集进行划分时,一般采用的80%用于训练,20%用于测试。
另外,在本可选实施方式中,采用的贝叶斯优化器来优化模型训练过程中的参数。一般情况下,在对模型进行训练时,每次依据训练数据进行训练均会对模型的参数进行调整,使得模型的预测结果与真实结果的差距变小,达到模型训练的目的。但对参数进行调整的过程中,一般不会对用于表征模型结构的参数(超参数(hyper-parameter))进行调整,即在训练过程中用于表征模型结构的超参数是不变的。但采用贝叶斯优化器时,可以依据模型训练过程中模型的优化效果,或者优化进度,对用于表征模型结构的超参数进行调整,从而提高模型训练效率以及模型训练效果。
在采用训练好的模型对具体用户进行预测时,会得到一个预测结果,预测结果会输出四个象限的人群:
确认型(无论是否施加处理用户活跃度都会自然增长--无需影响);
说服型(未施加处理不会产生活跃度收益,施加处理会扩大用户活跃度收益--采取处理);
勿扰型(未施加处理会产生活跃度收益,施加处理反而会减小用户活跃度收益--切勿打扰);
沉睡型(无论是否施加处理都不会有活跃度收益--防止流失)。
另外,可以以可视化形式输出上述预测结果。一个示例中,上述预测结果对应于图4所示的四象限类型的表示方式。例如,上述的确认型对应于图4中的2(自然转化型人群);上述的说服型对应于图4中的1(敏感型人群);上述的勿扰型对应于图4中的4(反作用型人群);上述的沉睡型对应于图4中的3(无动于忠型人群)。
通过上述可选实施方式,至少可以达到以下效果:
1.实现互联网业务场景下的生存分析
采用生存分析模块对于用户长期活跃粘性进行生存分析,可以智能选定模型优化的目标方向和用于检测敏感用户群划分效果的指标,减少了人为划分用户类型的不稳定性,以及能够有效避免短期心理学效应的偏误(例如,新奇效应)。因此,采用可选实施方式中的生存分析的处理方式,更适合互联网业务中新功能实验中对用户划分类型的需要。
2.能够有效实现工业化生产服务
以营销学的上提升模型(uplift)为理论,生存概率为评价指标,代码封装的方式构建了从数据处理,上提升计算,模型选择,模型调参,模型评测到工业生产一体化的Omnipolift互联网实验算法服务平台(PaaS)。用户可自主选择用于预处理的原始数据集,灵活选择数据集的标签以及四种划分类型,使得模型能够达到工业级的生产。
3.单模态混合训练与多模态分离训练的优化结合
可以根据数据集的属性,自主灵活选择模型的训练方式(alpha类--单模态混合/beta类--多模态分离),拓展了实验组数据集和控制组数据集训练的精度和准确度。根据具体的数据集,自动尝试采用基于用户活跃度的生存分析结果,对模型参数进行评估,通过不断的优化过程选择最合适的模型参数,从而得到高准确度的模型训练结果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本公开各个实施例的方法。
根据本公开实施例,还提供了一种用于实施上述数据处理方法一的装置,图7是根据一示例性实施例示出的数据处理装置一的装置框图。参照图7,该装置包括第一获取模块71,第一提取模块72,第一预测模块73和第一划分模块74,下面对该装置进行说明。
第一获取模块71,用于获取对象的画像数据和对象对应于第一业务的行为数据;第一提取模块72,连接至上述第一获取模块71,用于从画像数据中提取对象的画像特征和从行为数据中提取对象的行为特征;第一预测模块73,连接至上述第一提取模块72,用于向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果;第一划分模块74,连接至上述第一预测模块73,用于根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型;其中,活跃度增益模型采用样本数据集训练得到,样本数据集包括实验组数据与控制组数据,其中,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,第一业务为第二业务的旧版本业务。
此处需要说明的是,上述第一获取模块71,第一提取模块72,第一预测模块73和第一划分模块74对应于实施例1中的步骤S21至步骤S24,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
在一个或多个可选实施例中,该数据处理装置一还包括:第一检测模块和第一填充模块,其中,第一检测模块,用于在向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果之前,还包括:对画像特征和/或行为特征进行缺失性检测;第一填充模块,用于在画像特征和/或行为特征存在缺失的情况下,填充画像特征和行为特征缺失的特征。
在一个或多个可选实施例中,第一预测模块73,还用于:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升概率;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升概率;将第一活跃度提升概率和第二活跃度提升概率分别与第一提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果,其中,活跃度提升结果包括以下之一:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升。
在一个或多个可选实施例中,第一预测模块73,还用于:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升结果;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升结果;其中,活跃度提升结果包括:第一活跃度提升结果和第二活跃度提升结果,其中,第一活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第二活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
在一个或多个可选实施例中,第一预测模块73,还用于:假设对象为实验对象,向第一活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第三活跃度提升概率;假设对象为控制对象,向第二活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第四活跃度提升概率;将第三活跃度提升概率和第四活跃度提升概率分别与第二提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果,其中,活跃度提升结果包括以下之一:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;其中,活跃度增益模型包括:第一活跃度增益模型和第二活跃度增益模型,第一活跃度增益模型通过实验组数据训练得到,第二活跃度增益模型通过控制组数据训练得到。
在一个或多个可选实施例中,第一预测模块73,还用于:向活跃度增益模型输入画像特征和行为特征,预测对象属于四个类别中各类别的概率,其中,四个类别包括:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;根据对象属于四个类别中各类别的概率,确定对象假设为实验对象对应于第二业务的第三活跃度提升结果和对象假设为控制对象对应于第一业务的第四活跃度提升结果;其中,活跃度提升结果包括:第三活跃度提升结果和第四活跃度提升结果,其中,第三活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第四活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
在一个或多个可选实施例中,第一划分模块74,还用于:通过以下方式至少之一,根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型:在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为确认型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为敏感型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为勿扰型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为沉睡型。
在一个或多个可选实施例中,第一预测模块73,还用于:通过以下方式,确定对象分别对应于第二业务和对应于第一业务的活跃度提升结果:获取活跃度增益模型输出的对应于第二业务的活跃度提升概率、对应于第一业务的活跃度提升概率;以时间为横坐标、以对应于第二业务的活跃度提升概率为纵坐标,生成对象的第一生存曲线;以时间为横坐标、以对应于第一业务的活跃度提升概率为纵坐标,生成对象的第二生存曲线;确定第一生存曲线与坐标轴构成的第一面积和第二生存曲线与坐标轴构成的第二面积;根据第一面积与第二面积,确定对象对应于第二业务和对应于第一业务的活跃度提升结果。
根据本公开实施例,还提供了一种用于实施上述数据处理方法二的装置,图8是根据一示例性实施例示出的数据处理装置二的装置框图。参照图8,该装置包括第二获取模块81,第二提取模块82和训练模块83,下面对该装置进行说明。
第二获取模块81,用于获取样本数据集,其中,样本数据集包括实验组数据和控制组数据,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,第一业务为第二业务的旧版本业务;第二提取模块82,连接至上述第二获取模块81,用于提取实验对象的画像数据的画像特征和行为数据的行为特征,以及提取控制对象的画像数据的画像特征和行为数据的行为特征;训练模块83,连接至上述第二提取模块82,用于采用实验对象的画像数据的画像特征和行为数据的行为特征作为输入,实验对象对应于第二业务的活跃度提升结果作为输出,以及采用控制对象的画像数据的画像特征和行为数据的行为特征作为输入,控制对象对应于第一业务的活跃度提升结果作为输出,对活跃度增益模型进行训练。
此处需要说明的是,上述第二获取模块81,第二提取模块82和训练模块83对应于实施例1中的步骤S31至步骤S32,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
在一个或多个可选实施例中,训练模块83,还用于:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第一活跃度提升预测概率;比较第一活跃度提升预测概率与第一提升概率阈值,得到实验对象对应于第二业务是否有提升的第一活跃度提升预测结果;确定第一活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第一差异;根据第一差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第二活跃度提升预测概率;比较第二活跃度提升预测概率与第一提升概率阈值,得到控制对象对应于第一业务是否有提升的第二活跃度提升预测结果;确定第二活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第二差异;根据第二差异,优化活跃度增益模型的模型参数。
在一个或多个可选实施例中,训练模块83,还用于:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测结果;确定第三活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第三差异;根据第三差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测结果;确定第四活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第四差异;根据第四差异,优化活跃度增益模型的模型参数。
在一个或多个可选实施例中,训练模块83,还用于:向第一活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测概率,比较第三活跃度提升预测概率与第二提升概率阈值,得到实验对象对应于第二业务的第五活跃度提升预测结果;确定第五活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第五差异;根据第五差异,优化第一模型的模型参数;向第二活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测概率,比较第四活跃度提升预测概率与第二提升概率阈值,得到控制对象对应于第二业务的第六活跃度提升预测结果;确定第六活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第六差异;根据第六差异,优化第二模型的模型参数。
在一个或多个可选实施例中,训练模块83,还用于:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象属于四个类别中各类别的概率;以及向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象属于四个类别中各类别的概率,其中,四个类别包括:实验对象对应于第二业务活跃度有提升,实验对象对应于第二业务活跃度没有提升,控制对象对应于第一业务活跃度有提升,控制对象对应于第一业务活跃度没有提升;根据得到的实验对象属于四个类别中各类别的概率确定实验对象所属的类别,确定实验对象所属的类别与实验对象对应于第二业务的活跃度提升结果之间的第七差异,优化活跃度增益模型的模型参数;以及根据得到的控制对象属于四个类别中各类别的概率确定控制对象所属的类别,确定实验对象所属的类别与控制对象对应于第一业务的活跃度提升结果之间的第八差异,优化活跃度增益模型的模型参数。
在一个或多个可选实施例中,该数据处理装置二还包括:剪裁模块,用于根据预定剪裁条件,对实验组数据进行剪裁,获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据;和/或,根据预定剪裁条件,对控制组数据进行剪裁,获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据。
在一个或多个可选实施例中,剪裁模块,还用于通过以下方式获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据:确定实验组数据中的第一数据为第一正样本数据,确定实验组数据中的第二数据为第一负样本数据,其中,第一数据为实验对象对应于第二业务的活跃度提升超过第一预定数值的实验组数据,第二数据为实验对象对应于第二业务的活跃度降低超过第二预定数值的实验组数据;和/或,通过以下方式,获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据:确定控制组数据中的第三数据为第二正样本数据,确定控制组数据中的第四数据为第二负样本数据,其中,第三数据为控制对象对应于第一业务的活跃度提升超过第三预定数值的控制组数据,第四数据为控制对象对应于第一业务的活跃度降低超过第四预定数值的控制组数据。
在一个或多个可选实施例中,该数据处理装置二还包括:确定模块和展示模块,其中,确定模块,用于根据实验组数据和控制组数据,确定用于模型训练的建议选项,其中,建议选项包括用于选择模型参数阈值的第一选项和用于选择对模型训练的样本集进行操作的操作方式的第二选项;展示模块,用于展示建议选项。
在一个或多个可选实施例中,确定模块,还用于通过以下方式根据实验组数据和控制组数据,确定用于模型训练的建议选项:根据实验组数据和控制组数据,统计出实验对象和控制对象的生存概率曲线和/或风险比例曲线,其中,生存概率曲线用于表示实验对象在预定时间段内在第二业务上再次活跃的概率分布,或者控制对象在预定时间段内在第一业务上再次活跃的概率分布,风险比例曲线用于表示实验对象在预定时间段内的时间点上再次活跃的概率分布,或者控制对象在预定时间段内的时间点上再次活跃的概率分布;根据生存概率曲线和/或风险比例曲线,确定生存概率曲线和/或风险比例曲线发生转折或者突变的数据点;根据数据点的参数值,确定模型训练的建议参数阈值和对模型训练的样本集进行操作的操作方式。
在一个或多个可选实施例中,该数据处理装置二还包括:第二检测模块和第二填充模块,其中,第二检测模块,用于在对活跃度增益模型进行训练之前,检测实验组数据和控制组数据缺失的特征;第二填充模块,用于对检测出的缺失特征进行填充与编码。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开的实施例可以提供一种电子设备,其中,该电子设备可以是一种终端,也可以是一种服务器。
在本公开的实施例中,该电子设备为一种终端,该终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述终端也可以为移动终端等终端设备。
可选地,在本实施例中,上述终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,图9是根据一示例性实施例示出的一种终端的结构框图。如图9所示,该终端可以包括:一个或多个(图中仅示出一个)处理器91、用于存储处理器可执行指令的存储器92;其中,处理器被配置为执行指令,以实现上述任一项的数据处理方法。
其中,存储器可用于存储软件程序以及模块,如本公开实施例中的数据处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取对象的画像数据和对象对应于第一业务的行为数据;从画像数据中提取对象的画像特征和从行为数据中提取对象的行为特征;向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果;根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型;其中,活跃度增益模型采用样本数据集训练得到,样本数据集包括实验组数据与控制组数据,其中,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,第一业务为第二业务的旧版本业务。
可选的,上述处理器还可以执行如下步骤的程序代码:在向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果之前,还包括:对画像特征和/或行为特征进行缺失性检测;在画像特征和/或行为特征存在缺失的情况下,填充画像特征和行为特征缺失的特征。
可选的,上述处理器还可以执行如下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升概率;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升概率;将第一活跃度提升概率和第二活跃度提升概率分别与第一提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果,其中,活跃度提升结果包括以下之一:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升。
可选的,上述处理器还可以执行如下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升结果;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升结果;其中,活跃度提升结果包括:第一活跃度提升结果和第二活跃度提升结果,其中,第一活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第二活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
可选的,上述处理器还可以执行如下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:假设对象为实验对象,向第一活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第三活跃度提升概率;假设对象为控制对象,向第二活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第四活跃度提升概率;将第三活跃度提升概率和第四活跃度提升概率分别与第二提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果,其中,活跃度提升结果包括以下之一:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;其中,活跃度增益模型包括:第一活跃度增益模型和第二活跃度增益模型,第一活跃度增益模型通过实验组数据训练得到,第二活跃度增益模型通过控制组数据训练得到。
可选的,上述处理器还可以执行如下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:向活跃度增益模型输入画像特征和行为特征,预测对象属于四个类别中各类别的概率,其中,四个类别包括:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;根据对象属于四个类别中各类别的概率,确定对象假设为实验对象对应于第二业务的第三活跃度提升结果和对象假设为控制对象对应于第一业务的第四活跃度提升结果;其中,活跃度提升结果包括:第三活跃度提升结果和第四活跃度提升结果,其中,第三活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第四活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
可选的,上述处理器还可以执行如下步骤的程序代码:根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型,包括以下之一:在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为确认型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为敏感型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为勿扰型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为沉睡型。
可选的,上述处理器还可以执行如下步骤的程序代码:通过以下方式,确定对象分别对应于第二业务和对应于第一业务的活跃度提升结果:获取活跃度增益模型输出的对应于第二业务的活跃度提升概率、对应于第一业务的活跃度提升概率;以时间为横坐标、以对应于第二业务的活跃度提升概率为纵坐标,生成对象的第一生存曲线;以时间为横坐标、以对应于第一业务的活跃度提升概率为纵坐标,生成对象的第二生存曲线;确定第一生存曲线与坐标轴构成的第一面积和第二生存曲线与坐标轴构成的第二面积;根据第一面积与第二面积,确定对象对应于第二业务和对应于第一业务的活跃度提升结果。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取样本数据集,其中,样本数据集包括实验组数据和控制组数据,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,第一业务为第二业务的旧版本业务;提取实验对象的画像数据的画像特征和行为数据的行为特征,以及提取控制对象的画像数据的画像特征和行为数据的行为特征;采用实验对象的画像数据的画像特征和行为数据的行为特征作为输入,实验对象对应于第二业务的活跃度提升结果作为输出,以及采用控制对象的画像数据的画像特征和行为数据的行为特征作为输入,控制对象对应于第一业务的活跃度提升结果作为输出,对活跃度增益模型进行训练。
可选的,上述处理器还可以执行如下步骤的程序代码:对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第一活跃度提升预测概率;比较第一活跃度提升预测概率与第一提升概率阈值,得到实验对象对应于第二业务是否有提升的第一活跃度提升预测结果;确定第一活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第一差异;根据第一差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第二活跃度提升预测概率;比较第二活跃度提升预测概率与第一提升概率阈值,得到控制对象对应于第一业务是否有提升的第二活跃度提升预测结果;确定第二活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第二差异;根据第二差异,优化活跃度增益模型的模型参数。
可选的,上述处理器还可以执行如下步骤的程序代码:对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测结果;确定第三活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第三差异;根据第三差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测结果;确定第四活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第四差异;根据第四差异,优化活跃度增益模型的模型参数。
可选的,上述处理器还可以执行如下步骤的程序代码:对活跃度增益模型进行训练包括:向第一活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测概率,比较第三活跃度提升预测概率与第二提升概率阈值,得到实验对象对应于第二业务的第五活跃度提升预测结果;确定第五活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第五差异;根据第五差异,优化第一模型的模型参数;向第二活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测概率,比较第四活跃度提升预测概率与第二提升概率阈值,得到控制对象对应于第二业务的第六活跃度提升预测结果;确定第六活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第六差异;根据第六差异,优化第二模型的模型参数。
可选的,上述处理器还可以执行如下步骤的程序代码:对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象属于四个类别中各类别的概率;以及向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象属于四个类别中各类别的概率,其中,四个类别包括:实验对象对应于第二业务活跃度有提升,实验对象对应于第二业务活跃度没有提升,控制对象对应于第一业务活跃度有提升,控制对象对应于第一业务活跃度没有提升;根据得到的实验对象属于四个类别中各类别的概率确定实验对象所属的类别,确定实验对象所属的类别与实验对象对应于第二业务的活跃度提升结果之间的第七差异,优化活跃度增益模型的模型参数;以及根据得到的控制对象属于四个类别中各类别的概率确定控制对象所属的类别,确定实验对象所属的类别与控制对象对应于第一业务的活跃度提升结果之间的第八差异,优化活跃度增益模型的模型参数。
可选的,上述处理器还可以执行如下步骤的程序代码:在对活跃度增益模型进行训练之前,还包括:根据预定剪裁条件,对实验组数据进行剪裁,获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据;和/或,根据预定剪裁条件,对控制组数据进行剪裁,获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据。
可选的,上述处理器还可以执行如下步骤的程序代码:获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据,包括:确定实验组数据中的第一数据为第一正样本数据,确定实验组数据中的第二数据为第一负样本数据,其中,第一数据为实验对象对应于第二业务的活跃度提升超过第一预定数值的实验组数据,第二数据为实验对象对应于第二业务的活跃度降低超过第二预定数值的实验组数据;和/或,获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据,包括:确定控制组数据中的第三数据为第二正样本数据,确定控制组数据中的第四数据为第二负样本数据,其中,第三数据为控制对象对应于第一业务的活跃度提升超过第三预定数值的控制组数据,第四数据为控制对象对应于第一业务的活跃度降低超过第四预定数值的控制组数据。
可选的,上述处理器还可以执行如下步骤的程序代码:在对活跃度增益模型进行训练之前,还包括:根据实验组数据和控制组数据,确定用于模型训练的建议选项,其中,建议选项包括用于选择模型参数阈值的第一选项和用于选择对模型训练的样本集进行操作的操作方式的第二选项;展示建议选项。
可选的,上述处理器还可以执行如下步骤的程序代码:根据实验组数据和控制组数据,确定用于模型训练的建议选项,包括:根据实验组数据和控制组数据,统计出实验对象和控制对象的生存概率曲线和/或风险比例曲线,其中,生存概率曲线用于表示实验对象在预定时间段内在第二业务上再次活跃的概率分布,或者控制对象在预定时间段内在第一业务上再次活跃的概率分布,风险比例曲线用于表示实验对象在预定时间段内的时间点上再次活跃的概率分布,或者控制对象在预定时间段内的时间点上再次活跃的概率分布;根据生存概率曲线和/或风险比例曲线,确定生存概率曲线和/或风险比例曲线发生转折或者突变的数据点;根据数据点的参数值,确定模型训练的建议参数阈值和对模型训练的样本集进行操作的操作方式。
可选的,上述处理器还可以执行如下步骤的程序代码:在对活跃度增益模型进行训练之前,还包括:检测实验组数据和控制组数据缺失的特征;对检测出的缺失特征进行填充与编码。
在本公开的实施例中,该电子设备还可以是一种服务器,图10是根据一示例性实施例示出的一种服务器的结构框图。如图10所示,该服务器100可以包括:一个或多个(图中仅示出一个)处理组件101、用于存储处理组件101可执行指令的存储器102、提供电源的电源组件103,实现与外部网络通信的网络接口104和与外部进行数据传输的I/O输入输出接口105;其中,处理组件101被配置为执行指令,以实现上述任一项的数据处理方法。
其中,存储器可用于存储软件程序以及模块,如本公开实施例中的数据处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理组件可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取对象的画像数据和对象对应于第一业务的行为数据;从画像数据中提取对象的画像特征和从行为数据中提取对象的行为特征;向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果;根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型;其中,活跃度增益模型采用样本数据集训练得到,样本数据集包括实验组数据与控制组数据,其中,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,第一业务为第二业务的旧版本业务。
可选的,上述处理组件还可以执行如下步骤的程序代码:在向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果之前,还包括:对画像特征和/或行为特征进行缺失性检测;在画像特征和/或行为特征存在缺失的情况下,填充画像特征和行为特征缺失的特征。
可选的,上述处理组件还可以执行如下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升概率;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升概率;将第一活跃度提升概率和第二活跃度提升概率分别与第一提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果,其中,活跃度提升结果包括以下之一:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升。
可选的,上述处理组件还可以执行如下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升结果;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升结果;其中,活跃度提升结果包括:第一活跃度提升结果和第二活跃度提升结果,其中,第一活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第二活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
可选的,上述处理组件还可以执行如下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:假设对象为实验对象,向第一活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第三活跃度提升概率;假设对象为控制对象,向第二活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第四活跃度提升概率;将第三活跃度提升概率和第四活跃度提升概率分别与第二提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果,其中,活跃度提升结果包括以下之一:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;其中,活跃度增益模型包括:第一活跃度增益模型和第二活跃度增益模型,第一活跃度增益模型通过实验组数据训练得到,第二活跃度增益模型通过控制组数据训练得到。
可选的,上述处理组件还可以执行如下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:向活跃度增益模型输入画像特征和行为特征,预测对象属于四个类别中各类别的概率,其中,四个类别包括:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;根据对象属于四个类别中各类别的概率,确定对象假设为实验对象对应于第二业务的第三活跃度提升结果和对象假设为控制对象对应于第一业务的第四活跃度提升结果;其中,活跃度提升结果包括:第三活跃度提升结果和第四活跃度提升结果,其中,第三活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第四活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
可选的,上述处理组件还可以执行如下步骤的程序代码:根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型,包括以下之一:在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为确认型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为敏感型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为勿扰型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为沉睡型。
可选的,上述处理组件还可以执行如下步骤的程序代码:通过以下方式,确定对象分别对应于第二业务和对应于第一业务的活跃度提升结果:获取活跃度增益模型输出的对应于第二业务的活跃度提升概率、对应于第一业务的活跃度提升概率;以时间为横坐标、以对应于第二业务的活跃度提升概率为纵坐标,生成对象的第一生存曲线;以时间为横坐标、以对应于第一业务的活跃度提升概率为纵坐标,生成对象的第二生存曲线;确定第一生存曲线与坐标轴构成的第一面积和第二生存曲线与坐标轴构成的第二面积;根据第一面积与第二面积,确定对象对应于第二业务和对应于第一业务的活跃度提升结果。
处理组件可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取样本数据集,其中,样本数据集包括实验组数据和控制组数据,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,第一业务为第二业务的旧版本业务;提取实验对象的画像数据的画像特征和行为数据的行为特征,以及提取控制对象的画像数据的画像特征和行为数据的行为特征;采用实验对象的画像数据的画像特征和行为数据的行为特征作为输入,实验对象对应于第二业务的活跃度提升结果作为输出,以及采用控制对象的画像数据的画像特征和行为数据的行为特征作为输入,控制对象对应于第一业务的活跃度提升结果作为输出,对活跃度增益模型进行训练。
可选的,上述处理组件还可以执行如下步骤的程序代码:对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第一活跃度提升预测概率;比较第一活跃度提升预测概率与第一提升概率阈值,得到实验对象对应于第二业务是否有提升的第一活跃度提升预测结果;确定第一活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第一差异;根据第一差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第二活跃度提升预测概率;比较第二活跃度提升预测概率与第一提升概率阈值,得到控制对象对应于第一业务是否有提升的第二活跃度提升预测结果;确定第二活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第二差异;根据第二差异,优化活跃度增益模型的模型参数。
可选的,上述处理组件还可以执行如下步骤的程序代码:对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测结果;确定第三活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第三差异;根据第三差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测结果;确定第四活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第四差异;根据第四差异,优化活跃度增益模型的模型参数。
可选的,上述处理组件还可以执行如下步骤的程序代码:对活跃度增益模型进行训练包括:向第一活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测概率,比较第三活跃度提升预测概率与第二提升概率阈值,得到实验对象对应于第二业务的第五活跃度提升预测结果;确定第五活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第五差异;根据第五差异,优化第一模型的模型参数;向第二活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测概率,比较第四活跃度提升预测概率与第二提升概率阈值,得到控制对象对应于第二业务的第六活跃度提升预测结果;确定第六活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第六差异;根据第六差异,优化第二模型的模型参数。
可选的,上述处理组件还可以执行如下步骤的程序代码:对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象属于四个类别中各类别的概率;以及向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象属于四个类别中各类别的概率,其中,四个类别包括:实验对象对应于第二业务活跃度有提升,实验对象对应于第二业务活跃度没有提升,控制对象对应于第一业务活跃度有提升,控制对象对应于第一业务活跃度没有提升;根据得到的实验对象属于四个类别中各类别的概率确定实验对象所属的类别,确定实验对象所属的类别与实验对象对应于第二业务的活跃度提升结果之间的第七差异,优化活跃度增益模型的模型参数;以及根据得到的控制对象属于四个类别中各类别的概率确定控制对象所属的类别,确定实验对象所属的类别与控制对象对应于第一业务的活跃度提升结果之间的第八差异,优化活跃度增益模型的模型参数。
可选的,上述处理组件还可以执行如下步骤的程序代码:在对活跃度增益模型进行训练之前,还包括:根据预定剪裁条件,对实验组数据进行剪裁,获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据;和/或,根据预定剪裁条件,对控制组数据进行剪裁,获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据。
可选的,上述处理组件还可以执行如下步骤的程序代码:获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据,包括:确定实验组数据中的第一数据为第一正样本数据,确定实验组数据中的第二数据为第一负样本数据,其中,第一数据为实验对象对应于第二业务的活跃度提升超过第一预定数值的实验组数据,第二数据为实验对象对应于第二业务的活跃度降低超过第二预定数值的实验组数据;和/或,获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据,包括:确定控制组数据中的第三数据为第二正样本数据,确定控制组数据中的第四数据为第二负样本数据,其中,第三数据为控制对象对应于第一业务的活跃度提升超过第三预定数值的控制组数据,第四数据为控制对象对应于第一业务的活跃度降低超过第四预定数值的控制组数据。
可选的,上述处理组件还可以执行如下步骤的程序代码:在对活跃度增益模型进行训练之前,还包括:根据实验组数据和控制组数据,确定用于模型训练的建议选项,其中,建议选项包括用于选择模型参数阈值的第一选项和用于选择对模型训练的样本集进行操作的操作方式的第二选项;展示建议选项。
可选的,上述处理组件还可以执行如下步骤的程序代码:根据实验组数据和控制组数据,确定用于模型训练的建议选项,包括:根据实验组数据和控制组数据,统计出实验对象和控制对象的生存概率曲线和/或风险比例曲线,其中,生存概率曲线用于表示实验对象在预定时间段内在第二业务上再次活跃的概率分布,或者控制对象在预定时间段内在第一业务上再次活跃的概率分布,风险比例曲线用于表示实验对象在预定时间段内的时间点上再次活跃的概率分布,或者控制对象在预定时间段内的时间点上再次活跃的概率分布;根据生存概率曲线和/或风险比例曲线,确定生存概率曲线和/或风险比例曲线发生转折或者突变的数据点;根据数据点的参数值,确定模型训练的建议参数阈值和对模型训练的样本集进行操作的操作方式。
可选的,上述处理组件还可以执行如下步骤的程序代码:在对活跃度增益模型进行训练之前,还包括:检测实验组数据和控制组数据缺失的特征;对检测出的缺失特征进行填充与编码。
本领域普通技术人员可以理解,图9,图10所示的结构仅为示意,例如,上述终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图9,图10其并不对上述电子装置的结构造成限定。例如,还可包括比9,图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与9,图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项的数据处理方法。计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的数据处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取对象的画像数据和对象对应于第一业务的行为数据;从画像数据中提取对象的画像特征和从行为数据中提取对象的行为特征;向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果;根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型;其中,活跃度增益模型采用样本数据集训练得到,样本数据集包括实验组数据与控制组数据,其中,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,第一业务为第二业务的旧版本业务。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:在向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果之前,还包括:对画像特征和/或行为特征进行缺失性检测;在画像特征和/或行为特征存在缺失的情况下,填充画像特征和行为特征缺失的特征。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升概率;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升概率;将第一活跃度提升概率和第二活跃度提升概率分别与第一提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果,其中,活跃度提升结果包括以下之一:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:假设对象为实验对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第一活跃度提升结果;假设对象为控制对象,向活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第二活跃度提升结果;其中,活跃度提升结果包括:第一活跃度提升结果和第二活跃度提升结果,其中,第一活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第二活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:假设对象为实验对象,向第一活跃度增益模型输入画像特征和行为特征,预测对象假设为实验对象对应于第二业务的第三活跃度提升概率;假设对象为控制对象,向第二活跃度增益模型输入画像特征和行为特征,预测对象假设为控制对象对应于第一业务的第四活跃度提升概率;将第三活跃度提升概率和第四活跃度提升概率分别与第二提升概率阈值进行比较,得到对象假设为实验对象对应于第二业务的活跃度提升结果和对象假设为控制对象对应于第一业务的活跃度提升结果,其中,活跃度提升结果包括以下之一:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升;对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;其中,活跃度增益模型包括:第一活跃度增益模型和第二活跃度增益模型,第一活跃度增益模型通过实验组数据训练得到,第二活跃度增益模型通过控制组数据训练得到。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:向活跃度增益模型输入画像特征和行为特征,预测对象分别对应于第二业务和对应于第一业务的活跃度提升结果,包括:向活跃度增益模型输入画像特征和行为特征,预测对象属于四个类别中各类别的概率,其中,四个类别包括:对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升;根据对象属于四个类别中各类别的概率,确定对象假设为实验对象对应于第二业务的第三活跃度提升结果和对象假设为控制对象对应于第一业务的第四活跃度提升结果;其中,活跃度提升结果包括:第三活跃度提升结果和第四活跃度提升结果,其中,第三活跃度提升结果包括:对象假设为实验对象对应于第二业务的活跃度有提升,或者对象假设为实验对象对应于第二业务的活跃度没有提升;第四活跃度提升结果包括:对象假设为控制对象对应于第一业务的活跃度有提升,或者对象假设为控制对象对应于第一业务的活跃度没有提升。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:根据对象分别对应于第二业务和对应于第一业务的活跃度提升结果,划分对象所属的类型,包括以下之一:在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为确认型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为敏感型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度有提升时,将对象划分为勿扰型;在活跃度提升结果为对象假设为实验对象对应于第二业务的活跃度没有提升,对象假设为控制对象对应于第一业务的活跃度没有提升时,将对象划分为沉睡型。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:通过以下方式,确定对象分别对应于第二业务和对应于第一业务的活跃度提升结果:获取活跃度增益模型输出的对应于第二业务的活跃度提升概率、对应于第一业务的活跃度提升概率;以时间为横坐标、以对应于第二业务的活跃度提升概率为纵坐标,生成对象的第一生存曲线;以时间为横坐标、以对应于第一业务的活跃度提升概率为纵坐标,生成对象的第二生存曲线;确定第一生存曲线与坐标轴构成的第一面积和第二生存曲线与坐标轴构成的第二面积;根据第一面积与第二面积,确定对象对应于第二业务和对应于第一业务的活跃度提升结果。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取样本数据集,其中,样本数据集包括实验组数据和控制组数据,控制组数据包括控制对象的画像数据、行为数据、以及控制对象对应于第一业务的活跃度提升结果,实验组数据包括实验对象的画像数据、行为数据、以及实验对象对应于第二业务的活跃度提升结果,第一业务为第二业务的旧版本业务;提取实验对象的画像数据的画像特征和行为数据的行为特征,以及提取控制对象的画像数据的画像特征和行为数据的行为特征;采用实验对象的画像数据的画像特征和行为数据的行为特征作为输入,实验对象对应于第二业务的活跃度提升结果作为输出,以及采用控制对象的画像数据的画像特征和行为数据的行为特征作为输入,控制对象对应于第一业务的活跃度提升结果作为输出,对活跃度增益模型进行训练。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第一活跃度提升预测概率;比较第一活跃度提升预测概率与第一提升概率阈值,得到实验对象对应于第二业务是否有提升的第一活跃度提升预测结果;确定第一活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第一差异;根据第一差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第二活跃度提升预测概率;比较第二活跃度提升预测概率与第一提升概率阈值,得到控制对象对应于第一业务是否有提升的第二活跃度提升预测结果;确定第二活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第二差异;根据第二差异,优化活跃度增益模型的模型参数。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测结果;确定第三活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第三差异;根据第三差异,优化活跃度增益模型的模型参数;向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测结果;确定第四活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第四差异;根据第四差异,优化活跃度增益模型的模型参数。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:对活跃度增益模型进行训练包括:向第一活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象对应于第二业务的第三活跃度提升预测概率,比较第三活跃度提升预测概率与第二提升概率阈值,得到实验对象对应于第二业务的第五活跃度提升预测结果;确定第五活跃度提升预测结果与实验对象对应于第二业务的活跃度提升结果之间的第五差异;根据第五差异,优化第一模型的模型参数;向第二活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象对应于第一业务的第四活跃度提升预测概率,比较第四活跃度提升预测概率与第二提升概率阈值,得到控制对象对应于第二业务的第六活跃度提升预测结果;确定第六活跃度提升预测结果与控制对象对应于第一业务的活跃度提升结果之间的第六差异;根据第六差异,优化第二模型的模型参数。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:对活跃度增益模型进行训练包括:向活跃度增益模型输入实验对象的画像数据的画像特征和行为数据的行为特征,得到实验对象属于四个类别中各类别的概率;以及向活跃度增益模型输入控制对象的画像数据的画像特征和行为数据的行为特征,得到控制对象属于四个类别中各类别的概率,其中,四个类别包括:实验对象对应于第二业务活跃度有提升,实验对象对应于第二业务活跃度没有提升,控制对象对应于第一业务活跃度有提升,控制对象对应于第一业务活跃度没有提升;根据得到的实验对象属于四个类别中各类别的概率确定实验对象所属的类别,确定实验对象所属的类别与实验对象对应于第二业务的活跃度提升结果之间的第七差异,优化活跃度增益模型的模型参数;以及根据得到的控制对象属于四个类别中各类别的概率确定控制对象所属的类别,确定实验对象所属的类别与控制对象对应于第一业务的活跃度提升结果之间的第八差异,优化活跃度增益模型的模型参数。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:在对活跃度增益模型进行训练之前,还包括:根据预定剪裁条件,对实验组数据进行剪裁,获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据;和/或,根据预定剪裁条件,对控制组数据进行剪裁,获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:获得实验组数据中满足预定剪裁条件的第一正样本数据和第一负样本数据,包括:确定实验组数据中的第一数据为第一正样本数据,确定实验组数据中的第二数据为第一负样本数据,其中,第一数据为实验对象对应于第二业务的活跃度提升超过第一预定数值的实验组数据,第二数据为实验对象对应于第二业务的活跃度降低超过第二预定数值的实验组数据;和/或,获得控制组数据中满足预定剪裁条件的第二正样本数据和第二负样本数据,包括:确定控制组数据中的第三数据为第二正样本数据,确定控制组数据中的第四数据为第二负样本数据,其中,第三数据为控制对象对应于第一业务的活跃度提升超过第三预定数值的控制组数据,第四数据为控制对象对应于第一业务的活跃度降低超过第四预定数值的控制组数据。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:在对活跃度增益模型进行训练之前,还包括:根据实验组数据和控制组数据,确定用于模型训练的建议选项,其中,建议选项包括用于选择模型参数阈值的第一选项和用于选择对模型训练的样本集进行操作的操作方式的第二选项;展示建议选项。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:根据实验组数据和控制组数据,确定用于模型训练的建议选项,包括:根据实验组数据和控制组数据,统计出实验对象和控制对象的生存概率曲线和/或风险比例曲线,其中,生存概率曲线用于表示实验对象在预定时间段内在第二业务上再次活跃的概率分布,或者控制对象在预定时间段内在第一业务上再次活跃的概率分布,风险比例曲线用于表示实验对象在预定时间段内的时间点上再次活跃的概率分布,或者控制对象在预定时间段内的时间点上再次活跃的概率分布;根据生存概率曲线和/或风险比例曲线,确定生存概率曲线和/或风险比例曲线发生转折或者突变的数据点;根据数据点的参数值,确定模型训练的建议参数阈值和对模型训练的样本集进行操作的操作方式。
可选地,在本实施例中,计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码:在对活跃度增益模型进行训练之前,还包括:检测实验组数据和控制组数据缺失的特征;对检测出的缺失特征进行填充与编码。
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被电子设备的处理器执行时,实现上述任一项的数据处理方法。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
在本公开的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取对象的画像数据和所述对象对应于第一业务的行为数据;
从所述画像数据中提取所述对象的画像特征和从所述行为数据中提取所述对象的行为特征;
向活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于第二业务和对应于所述第一业务的活跃度提升结果;
根据所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,划分所述对象所属的类型;
其中,所述活跃度增益模型采用样本数据集训练得到,所述样本数据集包括实验组数据与控制组数据,其中,所述实验组数据包括实验对象的画像数据、行为数据、以及所述实验对象对应于所述第二业务的活跃度提升结果,所述控制组数据包括控制对象的画像数据、行为数据、以及所述控制对象对应于所述第一业务的活跃度提升结果,所述第一业务为所述第二业务的旧版本业务。
2.根据权利要求1所述的方法,其特征在于,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,包括:
假设所述对象为实验对象,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为实验对象对应于所述第二业务的第一活跃度提升概率;
假设所述对象为控制对象,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为控制对象对应于所述第一业务的第二活跃度提升概率;
将所述第一活跃度提升概率和所述第二活跃度提升概率分别与第一提升概率阈值进行比较,得到所述对象假设为实验对象对应于所述第二业务的活跃度提升结果和所述对象假设为控制对象对应于所述第一业务的活跃度提升结果,其中,所述活跃度提升结果包括以下之一:
所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升;
所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升;
所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升;
所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升。
3.根据权利要求1所述的方法,其特征在于,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,包括:
假设所述对象为实验对象,向第一活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为实验对象对应于所述第二业务的第三活跃度提升概率;
假设所述对象为控制对象,向第二活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象假设为控制对象对应于所述第一业务的第四活跃度提升概率;
将所述第三活跃度提升概率和所述第四活跃度提升概率分别与第二提升概率阈值进行比较,得到所述对象假设为实验对象对应于所述第二业务的活跃度提升结果和所述对象假设为控制对象对应于所述第一业务的活跃度提升结果,其中,所述活跃度提升结果包括以下之一:
所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升;
所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升;
所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升;
所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升;
其中,所述活跃度增益模型包括:所述第一活跃度增益模型和所述第二活跃度增益模型,所述第一活跃度增益模型通过所述实验组数据训练得到,所述第二活跃度增益模型通过所述控制组数据训练得到。
4.根据权利要求1所述的方法,其特征在于,向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,包括:
向所述活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象属于四个类别中各类别的概率,其中,所述四个类别包括:所述对象假设为实验对象对应于所述第二业务的活跃度有提升,所述对象假设为实验对象对应于所述第二业务的活跃度没有提升,所述对象假设为控制对象对应于所述第一业务的活跃度有提升,所述对象假设为控制对象对应于所述第一业务的活跃度没有提升;
根据所述对象属于四个类别中各类别的概率,确定所述对象假设为实验对象对应于所述第二业务的第三活跃度提升结果和所述对象假设为控制对象对应于所述第一业务的第四活跃度提升结果;其中,所述活跃度提升结果包括:所述第三活跃度提升结果和所述第四活跃度提升结果,其中,所述第三活跃度提升结果包括:所述对象假设为实验对象对应于所述第二业务的活跃度有提升,或者所述对象假设为实验对象对应于所述第二业务的活跃度没有提升;所述第四活跃度提升结果包括:所述对象假设为控制对象对应于所述第一业务的活跃度有提升,或者所述对象假设为控制对象对应于所述第一业务的活跃度没有提升。
5.一种数据处理方法,其特征在于,包括:
获取样本数据集,其中,所述样本数据集包括实验组数据和控制组数据,所述控制组数据包括控制对象的画像数据、行为数据、以及所述控制对象对应于第一业务的活跃度提升结果,所述实验组数据包括实验对象的画像数据、行为数据、以及所述实验对象对应于第二业务的活跃度提升结果,所述第一业务为所述第二业务的旧版本业务;
提取所述实验对象的画像数据的画像特征和行为数据的行为特征,以及提取所述控制对象的画像数据的画像特征和行为数据的行为特征;
采用所述实验对象的画像数据的画像特征和行为数据的行为特征作为输入,所述实验对象对应于所述第二业务的活跃度提升结果作为输出,以及采用所述控制对象的画像数据的画像特征和行为数据的行为特征作为输入,所述控制对象对应于所述第一业务的活跃度提升结果作为输出,对活跃度增益模型进行训练。
6.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取对象的画像数据和所述对象对应于第一业务的行为数据;
第一提取模块,用于从所述画像数据中提取所述对象的画像特征和从所述行为数据中提取所述对象的行为特征;
第一预测模块,用于向活跃度增益模型输入所述画像特征和所述行为特征,预测所述对象分别对应于第二业务和对应于所述第一业务的活跃度提升结果;
第一划分模块,用于根据所述对象分别对应于所述第二业务和对应于所述第一业务的活跃度提升结果,划分所述对象所属的类型;
其中,所述活跃度增益模型采用样本数据集训练得到,所述样本数据集包括实验组数据与控制组数据,其中,所述实验组数据包括实验对象的画像数据、行为数据、以及所述实验对象对应于所述第二业务的活跃度提升结果,所述控制组数据包括控制对象的画像数据、行为数据、以及所述控制对象对应于所述第一业务的活跃度提升结果,所述第一业务为所述第二业务的旧版本业务。
7.一种数据处理装置,其特征在于,包括:
第二获取模块,用于获取样本数据集,其中,所述样本数据集包括实验组数据和控制组数据,所述控制组数据包括控制对象的画像数据、行为数据、以及所述控制对象对应于第一业务的活跃度提升结果,所述实验组数据包括实验对象的画像数据、行为数据、以及所述实验对象对应于第二业务的活跃度提升结果,所述第一业务为所述第二业务的旧版本业务;
第二提取模块,用于提取所述实验对象的画像数据的画像特征和行为数据的行为特征,以及提取所述控制对象的画像数据的画像特征和行为数据的行为特征;
训练模块,用于采用所述实验对象的画像数据的画像特征和行为数据的行为特征作为输入,所述实验对象对应于所述第二业务的活跃度提升结果作为输出,以及采用所述控制对象的画像数据的画像特征和行为数据的行为特征作为输入,所述控制对象对应于所述第一业务的活跃度提升结果作为输出,对活跃度增益模型进行训练。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的数据处理方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令电子设备的处理器执行时,使得电子设备能够执行如权利要求1至5中任一项所述的数据处理方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的数据处理方法。
CN202011524166.5A 2020-12-21 2020-12-21 数据处理方法、装置、电子设备及计算机可读存储介质 Active CN112686690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011524166.5A CN112686690B (zh) 2020-12-21 2020-12-21 数据处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011524166.5A CN112686690B (zh) 2020-12-21 2020-12-21 数据处理方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112686690A true CN112686690A (zh) 2021-04-20
CN112686690B CN112686690B (zh) 2024-03-15

Family

ID=75450273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011524166.5A Active CN112686690B (zh) 2020-12-21 2020-12-21 数据处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112686690B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869964A (zh) * 2021-11-30 2021-12-31 腾讯科技(深圳)有限公司 一种数据处理方法和相关装置
CN114969543A (zh) * 2022-06-15 2022-08-30 北京百度网讯科技有限公司 推广方法、系统、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790908A (zh) * 2012-07-30 2012-11-21 四川长虹电器股份有限公司 一种基于epg实现节目推荐的方法
CN103942704A (zh) * 2013-01-18 2014-07-23 福特全球技术公司 用于广告筛选的方法和设备
CN104965890A (zh) * 2015-06-17 2015-10-07 深圳市腾讯计算机系统有限公司 广告推荐的方法和装置
CN105631538A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种用户活跃度的预测方法、装置及其应用方法和系统
CN106383904A (zh) * 2016-09-29 2017-02-08 中国联合网络通信集团有限公司 视频推荐方法及装置
CN107612966A (zh) * 2017-08-11 2018-01-19 百度在线网络技术(北京)有限公司 Feed信息反馈处理方法及系统
CN109189954A (zh) * 2018-09-07 2019-01-11 网易传媒科技(北京)有限公司 内容推荐方法和装置
CN110148012A (zh) * 2019-04-15 2019-08-20 中国平安人寿保险股份有限公司 用户激励方法、装置、计算机设备及存储介质
CN111309994A (zh) * 2020-01-22 2020-06-19 北京三快在线科技有限公司 用户匹配方法、装置、电子设备及可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790908A (zh) * 2012-07-30 2012-11-21 四川长虹电器股份有限公司 一种基于epg实现节目推荐的方法
CN103942704A (zh) * 2013-01-18 2014-07-23 福特全球技术公司 用于广告筛选的方法和设备
CN104965890A (zh) * 2015-06-17 2015-10-07 深圳市腾讯计算机系统有限公司 广告推荐的方法和装置
CN105631538A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种用户活跃度的预测方法、装置及其应用方法和系统
CN106383904A (zh) * 2016-09-29 2017-02-08 中国联合网络通信集团有限公司 视频推荐方法及装置
CN107612966A (zh) * 2017-08-11 2018-01-19 百度在线网络技术(北京)有限公司 Feed信息反馈处理方法及系统
CN109189954A (zh) * 2018-09-07 2019-01-11 网易传媒科技(北京)有限公司 内容推荐方法和装置
CN110148012A (zh) * 2019-04-15 2019-08-20 中国平安人寿保险股份有限公司 用户激励方法、装置、计算机设备及存储介质
CN111309994A (zh) * 2020-01-22 2020-06-19 北京三快在线科技有限公司 用户匹配方法、装置、电子设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869964A (zh) * 2021-11-30 2021-12-31 腾讯科技(深圳)有限公司 一种数据处理方法和相关装置
CN113869964B (zh) * 2021-11-30 2022-03-15 腾讯科技(深圳)有限公司 一种数据处理方法和相关装置
CN114969543A (zh) * 2022-06-15 2022-08-30 北京百度网讯科技有限公司 推广方法、系统、电子设备和存储介质
CN114969543B (zh) * 2022-06-15 2023-08-25 北京百度网讯科技有限公司 推广方法、系统、电子设备和存储介质

Also Published As

Publication number Publication date
CN112686690B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
US11200592B2 (en) Simulation-based evaluation of a marketing channel attribution model
CN110222880B (zh) 业务风险的确定方法、模型训练方法和数据处理方法
CN112633962B (zh) 业务推荐方法、装置、计算机设备和存储介质
EP4020315A1 (en) Method, apparatus and system for determining label
CN107194743A (zh) 一种网络调查问卷生成方法和装置
CN107305611A (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN109614414B (zh) 一种用户信息的确定方法及装置
CN110991789B (zh) 置信区间的确定方法和装置、存储介质及电子装置
CN111898675B (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
US11200501B2 (en) Accurate and interpretable rules for user segmentation
CN112686690A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN112149352B (zh) 一种结合gbdt自动特征工程对营销活动点击的预测方法
CN111797320A (zh) 数据处理方法、装置、设备及存储介质
CN112817563B (zh) 目标属性配置信息确定方法、计算机设备和存储介质
CN112508638A (zh) 数据处理的方法、装置及计算机设备
CN116362359A (zh) 基于ai大数据的用户满意度预测方法、装置、设备及介质
CN111784384B (zh) 支付业务数据处理方法、装置、设备及系统
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN113674013A (zh) 一种基于商户自定义规则的广告竞价调整方法及系统
CN115482019A (zh) 一种活动关注度预测方法、装置、电子设备和存储介质
CN112200602A (zh) 用于广告推荐的神经网络模型训练方法及装置
CN112307319A (zh) 一种页面生成方法及装置
CN113918817B (zh) 推送模型构建方法、装置、计算机设备及存储介质
CN117194779A (zh) 基于人工智能的营销系统优化方法、装置及设备
US20230205754A1 (en) Data integrity optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant