CN109785002A - 一种用户游戏内付费预测方法 - Google Patents
一种用户游戏内付费预测方法 Download PDFInfo
- Publication number
- CN109785002A CN109785002A CN201910044749.9A CN201910044749A CN109785002A CN 109785002 A CN109785002 A CN 109785002A CN 201910044749 A CN201910044749 A CN 201910044749A CN 109785002 A CN109785002 A CN 109785002A
- Authority
- CN
- China
- Prior art keywords
- user
- game
- xgboost
- data
- smote
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于SMOTE和XGBOOST的用户游戏内付费预测方法,包括以下步骤:清洗数据样本:把游戏内用户数据整理成易于建模的类型;对用户是否有过消费行为进行编码;采用SMOTE算法补充正样本,即通过筛选特征的方式添加正样本数量;选取合适的树的深度及其他参数,建立XGBOOST训练模型;把数据样本中的数据放到建立的XGBOOST训练模型中进行训练;将未进行训练的数据进行检测并测试模型效果,判断用户是否会在游戏内付费。本发明能够准确的判断出用户是否会在游戏内付费。
Description
技术领域
本发明涉及用户游戏付费预测方法,特别是涉及一种基于SMOTE和XGBOOST的用户游戏内付费预测方法。
背景技术
根据几项预测,手机游戏行业的贡献将会越来越大,到2020年,其市场份额将接近35%。因此,游戏应用(App)提供商需要知道如何设计符合消费者需求的产品,如何持续使用,以及如何在应用内购买。特别是应用内购买是主要的收入模式。根据几项调查,在所有类型的应用(App)中,游戏App的收入增长率是最大的。世界上最畅销的10大应用软件,几乎都是免费游戏,其利润来自广告和应用内购买。综上所述,游戏内购买已经成为的主流收入模式。游戏应用程序制造商需要了解哪些因素影响用户的内购行为。因为在游戏中如果用户同意产品和服务消费,可以为企业带来持续的利润。
近十年来,与游戏App相关的话题也吸引了一些学术研究兴趣。例如手机游戏在无线网络环境使用的决定因素研究已经成熟。手机游戏行业面临的挑战和营销政策也被广泛研究。并且手机App的成功的关键因素、玩家愿意使用社交游戏App的决策因素、消费者的持续使用移动支付的内涵均有针对话分析和决策。由于游戏数据的宝贵价值,目前在游戏数据预测消费行为方面形成了行业壁垒。现有的文献大多只关注社交媒体或游戏设计观点。只有少数研究涉及到游戏内购买问题。目前常用于游戏用户付费行为预测的数据基础模型涵盖方差分析、因子分析、回归分析、主成分分析、聚类分析、逻辑回归、用户细分等等。显然这些方法不是很理想难以满足现实需求。
发明内容
本发明所要解决的技术问题是提供一种用户游戏内付费预测方法,能根据用户在游戏内的行为数据快速准确的判断出用户是否会消费,从而提升游戏厂商的经济效益。
本发明解决其技术问题所采用的技术方案是:提供一种基于SMOTE和XGBOOST的用户游戏内付费预测方法,包括以下步骤:
(1)清洗数据样本:把游戏内用户数据整理成易于建模的类型;
(2)对用户是否有过消费行为进行编码;
(3)采用SMOTE算法补充正样本,即通过筛选特征的方式添加正样本数量;
(4)选取合适的树的深度及其他参数,建立XGBOOST训练模型;
(5)把数据样本中的数据放到建立的XGBOOST训练模型中进行训练;
(6)将未进行训练的数据进行检测并测试模型效果,判断用户是否会在游戏内付费。
所述步骤(1)中清洗数据样本是指对用户在游戏内各种行为记录做筛选及处理,具体包括:补零、把日期换成天数和剔除异常数据的方式对数据格式进行清理,然后筛选出能够用来作为训练样本的数据。
所述步骤(2)中的编码方式为:0代表用户无消费,1代表用户在游戏内消费,2代表用户只消费一次,3代表用户消费两次以上。
所述步骤(3)中筛选的特征包括:钻石消耗次数、钻石消耗数量、金币消耗次数、金币消耗数量、玩家在线时长、玩家周登陆次数、主动发起挑战次数和挑战胜率。
所述步骤(3)中SMOTE算法补充正样本的具体步骤如下:
(a)从全部的T个少数类样本中找到样本xi的k个近邻,记为
(b)从k个近邻中随机选取一个样本生成一个0~1的随机数ξ1,合成一个新样本xil,
(c)将步骤(b)重复N次,合成N个新样本xi(new),new∈{1,...,N}。
所述XGBOOST训练模型为其中,F={f(x)=wq(x)},F对应所有回归树的集合,ti代表第i个特征,fk是F中的一棵树,每一棵树对应一个独立的叶子权重w和树结构q;目标函数obj(θ)=L(θ)+Ω(θ),其中,L(θ)为误差函数,Ω(θ)为正则项,对于误差函数部分采用增量训练,通过对平方误差泰勒展开二次项,带入正则项得到最终目标函数;在进行树的分裂,采用贪心生长树的方法遍历所有特征找到最优的特征分裂,到达一定深度或不能再分裂时停止,基于目标函数值比较分裂前后的最小目标函数值,增益最大的点为最优点,对应特征为最优特征。
所述步骤(5)中训练时,利用贪心策略及二次最优化确定最优节点及最小的损失函数,并以此为依据进行树分裂,得到小树苗,按照贪心生长树的方法分裂形成新树,根据之前的预测每次都会建立最优的树,当达到最大深度时停止迭代。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明对用户行为数据进行整理,然后筛选特征向量,SMOTE补充正样本后用XGBOOST模型进行训练和学习,再用原先采集的部分有效数据进行验证,用来检验所建立的XGBOOST模型的合理性。本发明经SMOTE算法补充正样本,XGBOOST算法在处理高维稀疏矩阵时准确率有大幅度提升。本发明能够准确的判断出用户是否会在游戏内付费,从而为游戏厂商筛选出潜在付费用户,具有较高的实用价值。
附图说明
图1是本发明的流程图;
图2是本发明中XGBOOST算法的流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种基于SMOTE和XGBOOST预测用户游戏内付费方法,如图1所示,包括以下步骤:
(1).整理数据样本:对用户在游戏内各种行为记录做筛选及处理。
对数据格式进行清理,使之方便做模型训练。其中包括但不限于补零、把日期换成天数、剔除异常数据,然后筛选出能够用来作为训练样本的数据。
(2).对用户是否有过消费行为进行编码:0代表用户无消费,1代表用户在游戏内消费,2代表用户只消费一次,3代表用户消费2次及2次以上;
(3).SMOTE算法补充正样本:筛选合适的特征,添加合理的正样本数量,易于训练;
筛选的特征分别为:钻石消耗次数、钻石消耗数量、金币消耗次数、金币消耗数量、玩家在线时长、玩家周登陆次数、主动发起挑战次数、挑战胜率。
其中SMOTE算法补充正样本的过程为:
a)首先从全部的T个少数类样本中找到样本xi的k个近邻,记为
b)然后从k个近邻中随机选取一个样本生成一个0~1的随机数ξ1,合成一个新样本xil,
c)将步骤b)重复进行N次,从而可以合成N个新样本xi(new),new∈{1,...,N}。对全部的T个少数类样本进行上述操作,便可为该少数类合成NT个新样本。
(4)建立XGBOOST模型:选取合适的树的深度及其他参数建立训练模型。
XGBoost最根本就是由决策树集成而来,因此树模型写成:
其中,F对应所有回归树的集合,ti代表第i个特征,每个f是树空间F的一棵树,每一棵树对应一个独立的叶子权重w和树结构q。此时需要引入目标函数:
obj(θ)=L(θ)+Ω(θ)
L(θ)部分为误差函数,表示模型拟合数据的程度,Ω(θ)表示正则项,是所有正则化项累加和,用来处理复杂模型,对复杂模型进行简单化处理。对于模型误差部分用增量训练,通过对平方误差泰勒展开二次项,带入正则化项得到的最终目标函数为:
其中的γ和λ是XGBOOST自定义的,显然γ和λ越大,表示希望获得更简单的树,这样处理能很清楚的理解这个目标,obj(t)分数越小表示生成的树的结构越好。至此树的类型已经能够确定,接下来需要进行树的分裂,采用贪心生长树的方法,遍历所有特征,从而找到最优的特征分裂,到达一定深度或不能再分裂时停止,基于目标函数值比较分裂前后的最小目标函数值,增益最大的点为最优点,对应特征为最优特征。
(5)训练XGBOOST模型:把步骤(3)中的数据放到步骤(4)中建立的网络进行训练:
XGBOOST最根本的就是希望建立K棵回归树,使得准确率高、泛化性好、预测误差尽量小,叶子节点尽量少的目标函数才能训练出更好的模型。如图2所示,利用贪心策略及二次最优化确定最优节点及最小的损失函数,以此为依据进行树分裂,得到小树苗,接下来按照上述方式继续分裂,并继续形成新树,根据之前的预测每次都会建立最优的树,当达到最大深度时停止迭代;此时我们得到了最基本的模型,之后使用栅格搜索等方法对几种参数进行优化,从而分析数据。
(6)测试网络:将未进行训练的数据进行检测并测试模型预测效果,判断用户是否会为游戏付费,以及用户消费水平。
不难发现,相比于传统的游戏内付费用户预测方法,本发明利用XGBOOST对高维稀疏矩阵预测的准确性,能够准确的预测出用户是否会在游戏内付费,从而为游戏公司筛选高回报用户,具有较高的实用价值。
Claims (7)
1.一种基于SMOTE和XGBOOST的用户游戏内付费预测方法,其特征在于,包括以下步骤:
(1)清洗数据样本:把游戏内用户数据整理成易于建模的类型;
(2)对用户是否有过消费行为进行编码;
(3)采用SMOTE算法补充正样本,即通过筛选特征的方式添加正样本数量;
(4)选取合适的树的深度及其他参数,建立XGBOOST训练模型;
(5)把数据样本中的数据放到建立的XGBOOST训练模型中进行训练;
(6)将未进行训练的数据进行检测并测试模型效果,判断用户是否会在游戏内付费。
2.根据权利要求1所述的基于SMOTE和XGBOOST的用户游戏内付费预测方法,其特征在于,所述步骤(1)中清洗数据样本是指对用户在游戏内各种行为记录做筛选及处理,具体包括:补零、把日期换成天数和剔除异常数据的方式对数据格式进行清理,然后筛选出能够用来作为训练样本的数据。
3.根据权利要求1所述的基于SMOTE和XGBOOST的用户游戏内付费预测方法,其特征在于,所述步骤(2)中的编码方式为:0代表用户无消费,1代表用户在游戏内消费,2代表用户只消费一次,3代表用户消费两次以上。
4.根据权利要求1所述的基于SMOTE和XGBOOST的用户游戏内付费预测方法,其特征在于,所述步骤(3)中筛选的特征包括:钻石消耗次数、钻石消耗数量、金币消耗次数、金币消耗数量、玩家在线时长、玩家周登陆次数、主动发起挑战次数和挑战胜率。
5.根据权利要求1所述的基于SMOTE和XGBOOST的用户游戏内付费预测方法,其特征在于,所述步骤(3)中SMOTE算法补充正样本的具体步骤如下:
(a)从全部的T个少数类样本中找到样本xi的k个近邻,记为
(b)从k个近邻中随机选取一个样本生成一个0~1的随机数ξ1,合成一个新样本xil,
(c)将步骤(b)重复N次,合成N个新样本xi(new),new∈{1,...,N}。
6.根据权利要求1所述的基于SMOTE和XGBOOST的用户游戏内付费预测方法,其特征在于,所述XGBOOST训练模型为其中,F={f(x)=wq(x)},F对应所有回归树的集合,ti代表第i个特征,fk是F中的一棵树,每一棵树对应一个独立的叶子权重w和树结构q;目标函数obj(θ)=L(θ)+Ω(θ),其中,L(θ)为误差函数,Ω(θ)为正则项,对于误差函数部分采用增量训练,通过对平方误差泰勒展开二次项,带入正则项得到最终目标函数;在进行树的分裂,采用贪心生长树的方法遍历所有特征找到最优的特征分裂,到达一定深度或不能再分裂时停止,基于目标函数值比较分裂前后的最小目标函数值,增益最大的点为最优点,对应特征为最优特征。
7.根据权利要求1所述的基于SMOTE和XGBOOST的用户游戏内付费预测方法,其特征在于,所述步骤(5)中训练时,利用贪心策略及二次最优化确定最优节点及最小的损失函数,并以此为依据进行树分裂,得到小树苗,按照贪心生长树的方法分裂形成新树,根据之前的预测每次都会建立最优的树,当达到最大深度时停止迭代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910044749.9A CN109785002A (zh) | 2019-01-17 | 2019-01-17 | 一种用户游戏内付费预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910044749.9A CN109785002A (zh) | 2019-01-17 | 2019-01-17 | 一种用户游戏内付费预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109785002A true CN109785002A (zh) | 2019-05-21 |
Family
ID=66500902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910044749.9A Pending CN109785002A (zh) | 2019-01-17 | 2019-01-17 | 一种用户游戏内付费预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109785002A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110874765A (zh) * | 2019-10-22 | 2020-03-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN111191860A (zh) * | 2020-04-14 | 2020-05-22 | 北京热云科技有限公司 | 基于集成学习的预测方法、预测系统和可读存储介质 |
CN111408143A (zh) * | 2020-03-13 | 2020-07-14 | 网易(杭州)网络有限公司 | 游戏付费预测方法、模型训练方法及装置 |
CN111803957A (zh) * | 2020-07-17 | 2020-10-23 | 网易(杭州)网络有限公司 | 一种网络游戏的玩家预测方法、装置、计算机设备和介质 |
CN112712383A (zh) * | 2019-10-24 | 2021-04-27 | 上海莉莉丝科技股份有限公司 | 应用程序的潜在用户预测方法、装置、设备及存储介质 |
-
2019
- 2019-01-17 CN CN201910044749.9A patent/CN109785002A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110874765A (zh) * | 2019-10-22 | 2020-03-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN110874765B (zh) * | 2019-10-22 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN112712383A (zh) * | 2019-10-24 | 2021-04-27 | 上海莉莉丝科技股份有限公司 | 应用程序的潜在用户预测方法、装置、设备及存储介质 |
CN111408143A (zh) * | 2020-03-13 | 2020-07-14 | 网易(杭州)网络有限公司 | 游戏付费预测方法、模型训练方法及装置 |
CN111191860A (zh) * | 2020-04-14 | 2020-05-22 | 北京热云科技有限公司 | 基于集成学习的预测方法、预测系统和可读存储介质 |
CN111191860B (zh) * | 2020-04-14 | 2020-08-21 | 北京热云科技有限公司 | 基于集成学习的预测方法、预测系统和可读存储介质 |
CN111803957A (zh) * | 2020-07-17 | 2020-10-23 | 网易(杭州)网络有限公司 | 一种网络游戏的玩家预测方法、装置、计算机设备和介质 |
CN111803957B (zh) * | 2020-07-17 | 2024-02-09 | 网易(杭州)网络有限公司 | 一种网络游戏的玩家预测方法、装置、计算机设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785002A (zh) | 一种用户游戏内付费预测方法 | |
CN111428147B (zh) | 结合社交和兴趣信息的异源图卷积网络的社交推荐方法 | |
CN106886915B (zh) | 一种基于时间衰减采样的广告点击预估方法 | |
CN107644279A (zh) | 评价模型的建模方法及装置 | |
Sifa et al. | Customer lifetime value prediction in non-contractual freemium settings: Chasing high-value users using deep neural networks and SMOTE | |
CN110188198A (zh) | 一种基于知识图谱的反欺诈方法及装置 | |
CN107423442A (zh) | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 | |
CN109544197A (zh) | 一种用户流失预测方法和装置 | |
CN106056444A (zh) | 数据处理方法和装置 | |
CN111325619A (zh) | 一种基于联合学习的信用卡欺诈检测模型更新方法及装置 | |
CN107368519A (zh) | 一种契合用户兴趣变化的协同处理方法及系统 | |
CN107862053A (zh) | 基于用户关系的用户画像构造方法、装置及计算设备 | |
CN102156932A (zh) | 一种客户再次购买意向预测方法及装置 | |
US11087344B2 (en) | Method and system for predicting and indexing real estate demand and pricing | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN106408325A (zh) | 基于用户支付信息的用户消费行为预测分析方法及系统 | |
CN108765042A (zh) | 一种基于用户与商铺网络-物理空间交互行为的商铺推荐算法 | |
CN108304853A (zh) | 游戏相关度的获取方法、装置、存储介质和电子装置 | |
Cui et al. | Max-linear regression models with regularization | |
CN107909439A (zh) | 共享产品的推荐方法、装置以及电子设备 | |
Wang | Churn Prediction for High-Value Players in Freemium Mobile Games: Using Random Under-Sampling. | |
CN110326005A (zh) | 信息处理设备、信息处理方法及程序 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
WO2020093817A1 (zh) | 一种核身方法及装置 | |
Zhang et al. | Generative AI and Creator Economy: Investigating the Effects of AI-Generated Voice on Online Video Creation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |