CN106204063A - 一种付费用户挖掘方法及装置 - Google Patents

一种付费用户挖掘方法及装置 Download PDF

Info

Publication number
CN106204063A
CN106204063A CN201610511933.6A CN201610511933A CN106204063A CN 106204063 A CN106204063 A CN 106204063A CN 201610511933 A CN201610511933 A CN 201610511933A CN 106204063 A CN106204063 A CN 106204063A
Authority
CN
China
Prior art keywords
user
information
payment
payment user
new probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610511933.6A
Other languages
English (en)
Inventor
都金涛
王添翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201610511933.6A priority Critical patent/CN106204063A/zh
Publication of CN106204063A publication Critical patent/CN106204063A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales

Abstract

本发明实施例公开了一种付费用户挖掘方法及装置,方法包括:获得采样数据,所述采样数据包含用户的基础信息、行为信息和订单信息;根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率;根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率;判断所述转新概率是否大于预设阈值;如果是,将所述目标非付费用户,确定为待转变为付费用户的用户。应用本发明实施例,能够挖掘出非付费用户中可能成为付费用户的用户。

Description

一种付费用户挖掘方法及装置
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种付费用户挖掘方法及装置。
背景技术
目前,为满足用户的多层次需求和网站自身发展的需要,很多网站的业务都同时覆盖了付费业务与非付费业务,其用户可以根据自身需求选择成为付费或非付费用户。
相对非付费用户,付费用户可以享受到更加多样化和高质量的服务,来满足自身个性化的需求。
而对于网站来说,付费用户更利于其生产优质的内容,提供高质的服务和更好的用户体验,从而吸引更多的用户,促进其自身的发展。即,对于网站来说,付费用户,通常都属于优质用户,需要进行专业的运营,因此,如何挖掘出非付费用户中可能转变为付费用户的用户是亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种付费用户挖掘方法及装置,以挖掘出非付费用户中可能成为付费用户的用户。
为达到上述目的,本发明实施例公开了一种付费用户挖掘方法,所述方法包括:
获得采样数据,所述采样数据包含用户的基础信息、行为信息和订单信息;
根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率;
根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率;
判断所述转新概率是否大于预设阈值;
如果是,将所述目标非付费用户,确定为待转变为付费用户的用户。
优选地,所述获得采样数据,包括:
统计预设时间段内的非付费用户和由非付费用户转变为付费用户的用户,将所统计到的用户的基础信息、行为信息和订单信息,确定为采样数据。
优选地,所述根据所述采样数据,训练用于确定用户转新概率的预测模型,包括:
将所述采样数据划分为正样本数据和负样本数据,其中,所述正样本数据为由非付费用户转变为付费用户的用户对应的数据,所述负样本数据为非付费用户对应的数据;
分别提取所述正样本数据和负样本数据对应的用户的特征信息;
根据所述用户的特征信息,训练用于确定用户转新概率的预测模型。
优选地,所述根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率,包括:
根据目标非付费用户的基础信息、行为信息和订单信息,提取所述目标非付费用户的特征信息;
根据所述目标非付费用户的特征信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率。
优选地,所述预测模型为迭代决策树模型。
为达到上述目的,本发明实施例还公开了一种付费用户挖掘装置,所述装置包括:
获得模块,用于获得采样数据,所述采样数据包含用户的基础信息、行为信息和订单信息;
训练模块,用于根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率;
第一确定模块,用于根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率;
判断模块,用于判断所述转新概率是否大于预设阈值;
第二确定模块,用于在所述判断模块的判断结果为是的情况下,将所述目标非付费用户,确定为待转变为付费用户的用户。
优选地,所述获得模块,具体用于:
统计预设时间段内的非付费用户和由非付费用户转变为付费用户的用户,将所统计到的用户的基础信息、行为信息和订单信息,确定为采样数据。
优选地,所述训练模块,包括:
划分子模块,用于将所述采样数据划分为正样本数据和负样本数据,其中,所述正样本数据为由非付费用户转变为付费用户的用户对应的数据,所述负样本数据为非付费用户对应的数据;
第一提取子模块,用于分别提取所述正样本数据和负样本数据对应的用户的特征信息;
训练子模块,用于根据所述用户的特征信息,训练用于确定用户转新概率的预测模型。
优选地,所述第一确定模块,包括:
第二提取子模块,用于根据目标非付费用户的基础信息、行为信息和订单信息,提取所述目标非付费用户的特征信息;
确定子模块,用于根据所述目标非付费用户的特征信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率。
优选地,所述预测模型为迭代决策树模型。
由上述技术方案可见,本发明实施例提供了一种付费用户挖掘方法及装置,首先,获得包含用户的基础信息、行为信息和订单信息的采样数据;然后,根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率;再根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率,并判断所述转新概率是否大于预设阈值,如果是,将所述目标非付费用户,确定为待转变为付费用户的用户。可以看出,应用本发明实施例提供的解决方案,能够得到目标非付费用户转变为付费会员用户的概率,从而挖掘出非付费用户中可能成为付费用户的用户,为后续用户运营提供重要的技术支持。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的付费用户挖掘方法的一种流程示意图;
图2为本发明实施例提供的付费用户挖掘装置的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种付费用户挖掘方法及装置,以下分别进行详细说明。
参见图1,图1为本发明实施例提供的付费用户挖掘方法的一种流程示意图,可以包括如下步骤:
S101,获得采样数据,所述采样数据包含用户的基础信息、行为信息和订单信息。
具体地,获得采样数据,可以统计预设时间段内的非付费用户和由非付费用户转变为付费用户的用户,将所统计到的用户的基础信息、行为信息和订单信息,确定为采样数据。
实际应用中,还可以根据具体需求,自定义预设时间段内的非付费用户和由非付费用户转变为付费用户的用户,然后再进行用户的统计。例如,针对视频网站,非付费用户可以指在预设时间段内有观影行为但截至统计日从来都不是付费用户或者付费状态已经过期一个月的用户,由非付费用户转变为付费用户的用户可以指在预设时间段内第一次成为付费用户或者本次成为付费用户距离上次已过期一个月的用户。
具体地,用户的基础信息可以是由用户主动提供的个人基础信息,本领域技术人员可以理解的是,从一定程度上来讲,填写的基础信息越多,说明用户对该网站越重视,更具体地,用户的基础信息可以包括性别、年龄、居住地、教育程度等相关信息;用户的行为信息可以为用户在预设时间段内的浏览行为信息或观影行为信息等,其反应了用户在多个维度上享受网站服务的情况;用户的订单信息可以为用户在预设时间段内的付费订单信息或免费订单信息,例如参与活动获得的免费赠送的付费业务等订单信息,本领域技术人员可以理解的是,订单信息可以反映用户对网站付费服务的依赖程度。
假设,预设时间段为2016年5月10号-2016年6月10号,可以从某视频网站后台数据库的相关数据表中统计出在该时间段内由非付费用户转变为付费用户的用户500万,活跃的非付费用户4000万,那么,这4500万用户对应的包含基础信息、行为信息和订单信息的数据便可以确定为采样数据。
S102,根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率。
具体地,预测模型可以为GBDT(Gradient Boosting Decision Tree,迭代决策树)算法模型;GBDT是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案,其主要优点是精度高、不需要做特征的归一化处理、能自动进行特征选择、容易处理缺失值、模型可解释性较好、可适应多种损失函数等。更具体地,预测模型可以为Xgboost(eXtreme Gradient Boosting)算法模型,它是GBDT的一种C++实现,不同于传统的GBDT算法,Xgboost算法对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项整体求最优解,用以权衡目标函数的下降和模型的复杂程度,来避免过拟合。此外,Xgboost算法被封装成多种库,通过直接对相关参数进行调整便可以使用,此为现有技术,这里不再进行赘述。
实际应用中,本领域技术人员可以理解的是,付费用户挖掘可以作为一个二分类问题来处理。因此,可以将所述采样数据划分为正样本数据和负样本数据,其中,正样本数据为由非付费用户转变为付费用户的用户对应的数据,负样本数据为非付费用户对应的数据;然后,分别提取正样本数据和负样本数据对应的用户的特征信息;再根据用户的特征信息,训练用于确定用户转新概率的预测模型。
具体地,可以首先进行特征的选择,然后对正样本数据和负样本数据分别进行处理,提取出用户的特征信息,并转化为针对训练模型可输入的数据;然后将上述转化后的数据和对应的标签输入Xgboost算法模型进行训练,得到一个优选的预测模型,该预测模型的输出可以设定为用户由非付费用户转变为付费用户的概率。其中,本领域技术人员可以理解的是,正样本数据对应的标签值为1,负样本数据对应的标签值为0。
假设,针对某视频网站,由S101已获得采样数据,那么,可以从采样数据中进行特征提取,首先进行特征的选择,该视频网站根据自身业务,从用户基础信息、观影行为信息、订单信息三个角度总共提出了182维特征,其中用户基础信息共提出了42维特征,可以包括:
性别(男、女、未知,共3维);
年龄(1维);
注册到成为会员的天数(1维);
填充率(1维),表示用户基础信息填写的完整情况;
是否填写手机号(1维);
是否填写邮箱(1维);
是否填写昵称(1维);
居住地(一线、二线、三线、四线城市、其他、未知,共6维);
教育程度(小学、初中、高中、大专、本科等共7维);
收入情况(1000元以下、1001-2000元、2001-3000元等共9维);
第三方账号接入类别(百度、新浪、人人网、QQ等共11维);
其中,观影行为信息共提出了135维特征,可以包括:
各端VV(Video View,视频播放量)总量(共27维),表示各终端的视频播放总量,如移动端、PC(Personal Computer,个人电脑)端的视频播放总量等;
各频道VV总量(共39维),其中各频道表示该视频网站的节目频道,如电影、电视剧、综艺等;
在电影、付费视频和所有视频上的VV、天频、部数、时长(共12维);
最近一次点播、试看、广告点击、观看VIP(Very Important Person,贵宾)视频距离购买VIP的时间(分小时和天数,共8维),其中,VIP指付费用户,VIP视频指付费视频;
点击跳过广告、喜欢广告次数(共2维);
最近一次观看电影、任意视频距离购买的时间(天数,共2维);
试看次数、点播次数(共2维);
购买前一个月每周的VV量(共4维);
新片的VV量和剧量(分为上线一周、两周、三周、更长四个时段,共8维);
PGC(Professionally-generated Content,专业生产内容)和UGC(User-generated Content,用户生成内容)的VV量和剧量(共4维);
院线电影、库存影片和网络大电影的观看量(共3维),其中院线电影、库存影片由该网站根据电影上映时间来确定;
会员账号登陆设备数量(共1维);
有过观影行为的平台数量(共1维),其中平台指PC、Andriod(安卓)、TV电视等平台;
在不同清晰度上的VV量(共22维)。
其中,订单信息共提出了5维特征,可以包括:
过去一个月内免费订单数(1维);
过去一个月内天卡订单数(1维);
过去一个月内月卡订单数(1维);
过去一个月内白银卡订单数(1维);
过去一个月内点播卡订单数(1维)。
然后针对由S101获得采样数据中的每一条样本数据,根据已选择的特征提取对应的特征信息,并转化为可输入的数据。实际应用中,还可以将采样数据按照2:1的比例进行划分,其中2/3的样本数据作为训练数据,1/3的样本数据作为测试数据,用于验证模型的优劣。
本领域技术人员可以理解的是,Xgboost算法模型可以将数据以稀疏矩阵的格式进行输入,矩阵的每一行数据都对应着一个用户,具体输入格式可以为:会员ID(identification,身份标识号),特征编号:特征值,标签;矩阵的列数为所统计的用户数。然后将该稀疏矩阵作为输入,对Xgboost算法模型进行训练,根据Xgboost算法模型的相关定义来得到一个优选的预测模型,具体的模型训练方法属于现有技术,此处不再赘述。
实际应用中,使用Xgboost算法模型还可以在预测模型训练好后,统计得到每维特征带来的增益和,本领域技术人员可以理解的是,每维特征带来的增益和表示该维特征对该预测模型贡献的多少,即对于预测用户由非付费用户转变为付费用户概率的重要性,因此,根据每维特征的增益和,可以对特征重要性进行排序。此外,还可以在特征的每个维度上进行用户转新率的计算,用堆积柱形图表示特征分布,例如纵轴表示转新率,横轴表示特征值,将特征可视化,通过查看该维特征取不同的特征值时,转新率的起伏变化,便可以清楚地看出该维特征对于预测用户由非付费用户转变为付费用户概率的重要性。其中,转新率为所统计的用户中由非付费用户转变为付费用户的用户所占的比例。
假设,特征“是否填写电话号码”的特征值为0、1,其中特征值为0表示用户没有填写电话号码,特征值为1表示用户填写了电话号码,通过计算得到,特征值为0时转新率1%,特征值为1时转新率为5%,针对该维特征不同的特征值,转新率差别很大,因此,本领域技术人员可以理解的是,特征“是否填写电话号码”对于预测非付费用户转变为付费用户的概率很重要,即,如果非付费用户填写了电话号码,那么该用户更有可能转变为付费用户。
S103,根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率。
具体地,根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率,可以根据目标非付费用户的基础信息、行为信息和订单信息,提取所述目标非付费用户的特征信息;然后,根据所述目标非付费用户的特征信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率。
实际应用中,可以首先获得目标非付费用户的基础信息、行为信息、订单信息,然后,根据S102选择的特征,进行特征信息的提取,并转化为可输入的数据,具体输入格式可以为:会员ID,特征编号:特征值。再将转化后的数据输入S102中已训练好的预测模型,得到目标非付费用户转变为付费用户的转新概率。
S104,判断所述转新概率是否大于预设阈值,如果是,执行S105。
S105,将所述目标非付费用户,确定为待转变为付费用户的用户。
具体地,可以预设一个阈值,将S103中得到的转新概率与该预设阈值进行比较,本领域技术人员可以理解的是,若该转新概率大于预设阈值,则可以将目标非付费用户确定为待转变为付费用户的用户。
假设,预设阈值为50%,由S103得到的非付费用户小明的转新概率为80%,那么,可以将小明确定为待转变为付费用户的用户。
实际应用中,还可以同时对多个待预测的非付费用户进行预测,将其特征信息转化后的可输入数据,构成一个稀疏矩阵,矩阵的每一行数据都对应着一个待预测用户,具体输入格式可以为:会员ID,特征编号:特征值;矩阵的列数为待预测的非付费用户数。然后,将该稀疏矩阵输入S102中已训练好的预测模型,得到每一个待预测的非付费用户转变为付费用户的转新概率。再针对上述每一个转新概率,判断其是否大于预设阈值,若是,则可以将该转新概率对应的非付费用户确定为待转变为付费用户的用户。
假设,预设阈值为50%,而在S103中,同时对非付费用户小红、小丽、小白、小平进行了预测,分别得到转新概率40%、90%、18%、56%,那么,则可以将小丽和小平确定为待转变为非付费用户的用户。
应用图1所示实施例,首先,获得包含用户的基础信息、行为信息和订单信息的采样数据;然后,根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率;再根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率,并判断所述转新概率是否大于预设阈值,如果是,将所述目标非付费用户,确定为待转变为付费用户的用户。可以看出,应用图1所示实施例提供的解决方案,能够得到目标非付费用户转变为付费会员用户的概率,从而挖掘出非付费用户中可能成为付费用户的用户,为后续用户运营提供重要的技术支持。
与上述的方法实施例相对应,本发明实施例还提供了一种付费用户挖掘装置。
参见图2,图2为本发明实施例提供的付费用户挖掘装置的一种结构示意图,与图1所示的流程相对应,包括:
获得模块201,用于获得采样数据,所述采样数据包含用户的基础信息、行为信息和订单信息;
本发明实施例所示的获得模块201,具体可以用于:
统计预设时间段内的非付费用户和由非付费用户转变为付费用户的用户,将所统计到的用户的基础信息、行为信息和订单信息,确定为采样数据。
训练模块202,用于根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率。
具体地,本发明实施例所示的训练模块202,可以包括:
划分子模块,用于将所述采样数据划分为正样本数据和负样本数据,其中,所述正样本数据为由非付费用户转变为付费用户的用户对应的数据,所述负样本数据为非付费用户对应的数据;
第一提取子模块,用于分别提取所述正样本数据和负样本数据对应的用户的特征信息;
训练子模块,用于根据所述用户的特征信息,训练用于确定用户转新概率的预测模型。
第一确定模块203,用于根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率。
具体地,本发明实施例所示的第一确定模块203,可以包括:
第二提取子模块,用于根据目标非付费用户的基础信息、行为信息和订单信息,提取所述目标非付费用户的特征信息;
确定子模块,用于根据所述目标非付费用户的特征信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率。
判断模块204,用于判断所述转新概率是否大于预设阈值。
第二确定模块205,用于在所述判断模块204的判断结果为是的情况下,将所述目标非付费用户,确定为待转变为付费用户的用户。
具体地,上述预测模型可以为迭代决策树模型。
应用图2所示实施例,首先,获得包含用户的基础信息、行为信息和订单信息的采样数据;然后,根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率;再根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率,并判断所述转新概率是否大于预设阈值,如果是,将所述目标非付费用户,确定为待转变为付费用户的用户。可以看出,应用图2所示实施例提供的解决方案,能够得到目标非付费用户转变为付费会员用户的概率,从而挖掘出非付费用户中可能成为付费用户的用户,为后续用户运营提供重要的技术支持。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种付费用户挖掘方法,其特征在于,所述方法包括:
获得采样数据,所述采样数据包含用户的基础信息、行为信息和订单信息;
根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率;
根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率;
判断所述转新概率是否大于预设阈值;
如果是,将所述目标非付费用户,确定为待转变为付费用户的用户。
2.根据权利要求1所述的方法,其特征在于,所述获得采样数据,包括:
统计预设时间段内的非付费用户和由非付费用户转变为付费用户的用户,将所统计到的用户的基础信息、行为信息和订单信息,确定为采样数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述采样数据,训练用于确定用户转新概率的预测模型,包括:
将所述采样数据划分为正样本数据和负样本数据,其中,所述正样本数据为由非付费用户转变为付费用户的用户对应的数据,所述负样本数据为非付费用户对应的数据;
分别提取所述正样本数据和负样本数据对应的用户的特征信息;
根据所述用户的特征信息,训练用于确定用户转新概率的预测模型。
4.根据权利要求3所述的方法,其特征在于,所述根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率,包括:
根据目标非付费用户的基础信息、行为信息和订单信息,提取所述目标非付费用户的特征信息;
根据所述目标非付费用户的特征信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述预测模型为迭代决策树模型。
6.一种付费用户挖掘装置,其特征在于,所述装置包括:
获得模块,用于获得采样数据,所述采样数据包含用户的基础信息、行为信息和订单信息;
训练模块,用于根据所述采样数据,训练用于确定用户转新概率的预测模型,其中,所述转新概率为用户由非付费用户转变为付费用户的概率;
第一确定模块,用于根据目标非付费用户的基础信息、行为信息、订单信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率;
判断模块,用于判断所述转新概率是否大于预设阈值;
第二确定模块,用于在所述判断模块的判断结果为是的情况下,将所述目标非付费用户,确定为待转变为付费用户的用户。
7.根据权利要求6所述的装置,其特征在于,所述获得模块,具体用于:
统计预设时间段内的非付费用户和由非付费用户转变为付费用户的用户,将所统计到的用户的基础信息、行为信息和订单信息,确定为采样数据。
8.根据权利要求7所述的装置,其特征在于,所述训练模块,包括:
划分子模块,用于将所述采样数据划分为正样本数据和负样本数据,其中,所述正样本数据为由非付费用户转变为付费用户的用户对应的数据,所述负样本数据为非付费用户对应的数据;
第一提取子模块,用于分别提取所述正样本数据和负样本数据对应的用户的特征信息;
训练子模块,用于根据所述用户的特征信息,训练用于确定用户转新概率的预测模型。
9.根据权利要求8所述的装置,其特征在于,所述第一确定模块,包括:
第二提取子模块,用于根据目标非付费用户的基础信息、行为信息和订单信息,提取所述目标非付费用户的特征信息;
确定子模块,用于根据所述目标非付费用户的特征信息和训练好的所述预测模型,确定所述目标非付费用户的转新概率。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述预测模型为迭代决策树模型。
CN201610511933.6A 2016-06-30 2016-06-30 一种付费用户挖掘方法及装置 Pending CN106204063A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610511933.6A CN106204063A (zh) 2016-06-30 2016-06-30 一种付费用户挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610511933.6A CN106204063A (zh) 2016-06-30 2016-06-30 一种付费用户挖掘方法及装置

Publications (1)

Publication Number Publication Date
CN106204063A true CN106204063A (zh) 2016-12-07

Family

ID=57464084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610511933.6A Pending CN106204063A (zh) 2016-06-30 2016-06-30 一种付费用户挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN106204063A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506877A (zh) * 2017-09-30 2017-12-22 携程计算机技术(上海)有限公司 Ota平台到店无房的预测方法及系统
CN107507042A (zh) * 2017-09-15 2017-12-22 携程计算机技术(上海)有限公司 基于用户画像的营销方法及系统
CN107633326A (zh) * 2017-09-14 2018-01-26 北京拉勾科技有限公司 一种用户投递意愿模型的构建方法和计算设备
CN107844584A (zh) * 2017-11-14 2018-03-27 北京小度信息科技有限公司 用户挖掘方法、装置、电子设备及计算机可读存储介质
CN107862556A (zh) * 2017-12-04 2018-03-30 北京奇艺世纪科技有限公司 一种vip广告的投放方法和系统
CN108009926A (zh) * 2017-12-07 2018-05-08 上海点融信息科技有限责任公司 用于用户分类的方法、信息处理装置及可读存储介质
CN108228809A (zh) * 2017-12-29 2018-06-29 广州品唯软件有限公司 一种参数确定方法和装置
CN108241984A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种访客分类方法及装置
CN108256910A (zh) * 2018-01-10 2018-07-06 京东方科技集团股份有限公司 内容推荐方法、装置及电子设备
CN108268555A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种信息处理方法及装置
CN108681750A (zh) * 2018-05-21 2018-10-19 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置
CN108875761A (zh) * 2017-05-11 2018-11-23 华为技术有限公司 一种拓展潜在用户的方法及装置
CN108965938A (zh) * 2018-08-03 2018-12-07 山东大学 智能电视中潜在付费用户预测方法及系统
CN109034903A (zh) * 2018-07-27 2018-12-18 广州视源电子科技股份有限公司 用户转化率预测方法及装置、计算机可读存储介质
CN109166012A (zh) * 2018-09-21 2019-01-08 苏州创旅天下信息技术有限公司 针对行程预定类用户的分类及信息推送的方法和装置
CN109190794A (zh) * 2018-07-27 2019-01-11 广州视源电子科技股份有限公司 行为序列清洗方法及装置、用户转化率预测方法及装置
CN110363575A (zh) * 2019-06-27 2019-10-22 上海淇毓信息科技有限公司 一种授信用户动支意愿预测方法、装置和设备
CN111191860A (zh) * 2020-04-14 2020-05-22 北京热云科技有限公司 基于集成学习的预测方法、预测系统和可读存储介质
CN112257890A (zh) * 2019-07-22 2021-01-22 北京易真学思教育科技有限公司 数据处理方法、装置和退费预测模型的训练方法、装置
US10990500B2 (en) 2018-05-18 2021-04-27 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for user analysis
CN112866760A (zh) * 2021-01-18 2021-05-28 青岛聚看云科技有限公司 一种内容显示方法、显示设备及服务器
CN113254644A (zh) * 2021-06-07 2021-08-13 成都数之联科技有限公司 模型训练方法及非投诉工单处理方法及系统及装置及介质
CN114862432A (zh) * 2021-02-04 2022-08-05 武汉斗鱼鱼乐网络科技有限公司 目标用户确定方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346894A (zh) * 2010-08-03 2012-02-08 阿里巴巴集团控股有限公司 推荐信息的输出方法、系统及服务器
CN105447730A (zh) * 2015-12-25 2016-03-30 腾讯科技(深圳)有限公司 目标用户定向方法及装置
CN105469263A (zh) * 2014-09-24 2016-04-06 阿里巴巴集团控股有限公司 一种商品推荐方法及装置
CN105719164A (zh) * 2016-01-21 2016-06-29 海信集团有限公司 一种推荐付费多媒体资源的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346894A (zh) * 2010-08-03 2012-02-08 阿里巴巴集团控股有限公司 推荐信息的输出方法、系统及服务器
CN105469263A (zh) * 2014-09-24 2016-04-06 阿里巴巴集团控股有限公司 一种商品推荐方法及装置
CN105447730A (zh) * 2015-12-25 2016-03-30 腾讯科技(深圳)有限公司 目标用户定向方法及装置
CN105719164A (zh) * 2016-01-21 2016-06-29 海信集团有限公司 一种推荐付费多媒体资源的方法及装置

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241984A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 一种访客分类方法及装置
CN108268555A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种信息处理方法及装置
CN108875761B (zh) * 2017-05-11 2022-06-28 华为技术有限公司 一种拓展潜在用户的方法及装置
CN108875761A (zh) * 2017-05-11 2018-11-23 华为技术有限公司 一种拓展潜在用户的方法及装置
CN107633326A (zh) * 2017-09-14 2018-01-26 北京拉勾科技有限公司 一种用户投递意愿模型的构建方法和计算设备
CN107507042A (zh) * 2017-09-15 2017-12-22 携程计算机技术(上海)有限公司 基于用户画像的营销方法及系统
CN107506877A (zh) * 2017-09-30 2017-12-22 携程计算机技术(上海)有限公司 Ota平台到店无房的预测方法及系统
CN107844584A (zh) * 2017-11-14 2018-03-27 北京小度信息科技有限公司 用户挖掘方法、装置、电子设备及计算机可读存储介质
CN107862556A (zh) * 2017-12-04 2018-03-30 北京奇艺世纪科技有限公司 一种vip广告的投放方法和系统
CN108009926A (zh) * 2017-12-07 2018-05-08 上海点融信息科技有限责任公司 用于用户分类的方法、信息处理装置及可读存储介质
CN108228809A (zh) * 2017-12-29 2018-06-29 广州品唯软件有限公司 一种参数确定方法和装置
CN108256910A (zh) * 2018-01-10 2018-07-06 京东方科技集团股份有限公司 内容推荐方法、装置及电子设备
US10990500B2 (en) 2018-05-18 2021-04-27 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for user analysis
CN108681750A (zh) * 2018-05-21 2018-10-19 阿里巴巴集团控股有限公司 Gbdt模型的特征解释方法和装置
US11205129B2 (en) 2018-05-21 2021-12-21 Advanced New Technologies Co., Ltd. GBDT model feature interpretation method and apparatus
CN109190794B (zh) * 2018-07-27 2021-08-24 广州视源电子科技股份有限公司 行为序列清洗方法及装置、用户转化率预测方法及装置
CN109190794A (zh) * 2018-07-27 2019-01-11 广州视源电子科技股份有限公司 行为序列清洗方法及装置、用户转化率预测方法及装置
CN109034903A (zh) * 2018-07-27 2018-12-18 广州视源电子科技股份有限公司 用户转化率预测方法及装置、计算机可读存储介质
CN108965938B (zh) * 2018-08-03 2020-03-20 山东大学 智能电视中潜在付费用户预测方法及系统
CN108965938A (zh) * 2018-08-03 2018-12-07 山东大学 智能电视中潜在付费用户预测方法及系统
CN109166012B (zh) * 2018-09-21 2021-05-28 苏州创旅天下信息技术有限公司 针对行程预定类用户的分类及信息推送的方法和装置
CN109166012A (zh) * 2018-09-21 2019-01-08 苏州创旅天下信息技术有限公司 针对行程预定类用户的分类及信息推送的方法和装置
CN110363575A (zh) * 2019-06-27 2019-10-22 上海淇毓信息科技有限公司 一种授信用户动支意愿预测方法、装置和设备
CN112257890A (zh) * 2019-07-22 2021-01-22 北京易真学思教育科技有限公司 数据处理方法、装置和退费预测模型的训练方法、装置
CN111191860B (zh) * 2020-04-14 2020-08-21 北京热云科技有限公司 基于集成学习的预测方法、预测系统和可读存储介质
CN111191860A (zh) * 2020-04-14 2020-05-22 北京热云科技有限公司 基于集成学习的预测方法、预测系统和可读存储介质
CN112866760A (zh) * 2021-01-18 2021-05-28 青岛聚看云科技有限公司 一种内容显示方法、显示设备及服务器
CN114862432A (zh) * 2021-02-04 2022-08-05 武汉斗鱼鱼乐网络科技有限公司 目标用户确定方法、装置、电子设备和存储介质
CN113254644A (zh) * 2021-06-07 2021-08-13 成都数之联科技有限公司 模型训练方法及非投诉工单处理方法及系统及装置及介质
CN113254644B (zh) * 2021-06-07 2021-09-17 成都数之联科技有限公司 模型训练方法及非投诉工单处理方法及系统及装置及介质

Similar Documents

Publication Publication Date Title
CN106204063A (zh) 一种付费用户挖掘方法及装置
CN108364085B (zh) 一种外卖配送时间预测方法和装置
US9348898B2 (en) Recommendation system with dual collaborative filter usage matrix
CN106294830A (zh) 多媒体资源的推荐方法及装置
CN109783730A (zh) 产品推荐方法、装置、计算机设备和存储介质
CN106339507B (zh) 流媒体消息推送方法和装置
CN108681970A (zh) 基于大数据的理财产品推送方法、系统及计算机存储介质
CN103971257B (zh) 一种互联网媒体组合投放效果的估计方法及系统
CN104102648A (zh) 基于用户行为数据的兴趣推荐方法及装置
CN104156390A (zh) 一种评论推荐方法和系统
CN106168980A (zh) 多媒体资源推荐排序方法及装置
CN105488366A (zh) 一种数据权限的控制方法和系统
US10496651B2 (en) User recommendation generation
CN109543132A (zh) 内容推荐方法、装置、电子设备及存储介质
CN109461030A (zh) 一种基于区块链的o2o评价方法及装置
CN109417644A (zh) 跨屏广告投放的收益优化
CN108475256A (zh) 从同现矩阵生成特征嵌入
CN108259949A (zh) 一种广告推荐方法、装置及电子设备
CN107205042A (zh) 一种信息精准推送方法及系统
CN109598404A (zh) 自动对下发销售任务单进行数据处理的方法和装置
CN109615504A (zh) 产品推荐方法、装置、电子设备和计算机可读存储介质
CN105844523A (zh) 利用证券追溯数据进行模拟交易的方法、装置及计算设备
CN114996486A (zh) 一种数据推荐方法、装置、服务器以及存储介质
CN108875032A (zh) 区域类型确定方法及装置
CN108628988A (zh) 一种服饰搭配推荐方法、装置、智能衣柜及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication