CN109325640A - 用户价值预测方法、装置、存储介质及设备 - Google Patents
用户价值预测方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN109325640A CN109325640A CN201811494007.8A CN201811494007A CN109325640A CN 109325640 A CN109325640 A CN 109325640A CN 201811494007 A CN201811494007 A CN 201811494007A CN 109325640 A CN109325640 A CN 109325640A
- Authority
- CN
- China
- Prior art keywords
- user
- model
- value
- data
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 86
- 238000003066 decision tree Methods 0.000 claims abstract description 77
- 238000007637 random forest analysis Methods 0.000 claims abstract description 66
- 230000003542 behavioural effect Effects 0.000 claims abstract description 55
- 239000000047 product Substances 0.000 claims description 60
- 238000012360 testing method Methods 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 13
- 230000003252 repetitive effect Effects 0.000 claims description 13
- 239000013589 supplement Substances 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 230000001502 supplementing effect Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种用户价值预测方法、装置、存储介质及设备,包括:将预处理后的行为数据和对应的用户价值存储为数据集;通过数据集分别训练SVM模型、随机森林模型和决策树模型,再用训练好的模型做预测,获得各模型预测的用户价值;通过各模型预测的用户价值以及对应的实际的用户价值训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型;获取目标产品中待分析用户的行为数据,并对行为数据进行预处理;且分别输入至最优的SVM模型、随机森林模型和决策树模型中,获得各模型预测的用户价值;将各模型预测的用户价值输入至最优的逻辑回归模型中,获得最终预测的用户价值。本发明提高了预测的准确性,提高了预测速度。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种用户价值预测方法、装置、存储介质及设备。
背景技术
随着计算机技术的快速发展,网上购物、网络游戏等网络消费产品得到了快速发展,用户在网络上的消费行为也呈现出迅速增长的趋势。对于一款产品,为获得用户的认可,对用户行为进行分析是其中一种重要的手段,尤其是那些能够为产品开发商提供盈利的高价值用户,通过给高价值用户提供专业的运营服务,从而维持高价值用户或者促进高价值用户的消费行为,可进一步提高盈利水平。因此,如何预测高价值用户成为了研究的课题。
发明人在实现本发明的过程中,发现预测高价值用户的方式准确率比较低、预测速度也不高。
发明内容
基于此,本发明的目的在于,提供一种用户价值预测方法,其具有可提高了预测速度,可提高预测准确率的优点。
一种用户价值预测方法,包括如下步骤:
获取目标产品中用户的行为数据以及对应的用户价值,并对所述行为数据进行预处理,且将预处理后的行为数据和对应的用户价值存储为数据集;
通过数据集分别训练SVM模型、随机森林模型和决策树模型,再用训练好的模型做预测,获得各模型预测的用户价值;通过各模型预测的用户价值以及对应的实际的用户价值训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型;
获取目标产品中待分析用户的行为数据,并对所述行为数据进行预处理;
将预处理后的行为数据分别输入至最优的SVM模型、随机森林模型和决策树模型中,获得各模型预测的用户价值;将各模型预测的用户价值输入至最优的逻辑回归模型中,获得最终预测的用户价值。
本发明通过对用户的行为数据先采用SVM模型、随机森林模型和决策树模型进行初次预测,获得各模型预测的用户价值,再通过逻辑回归模型将各模型预测的用户价值进行融合,获得最终的用户价值,实现既可以进行大数据集的预测,又可以快捷训练模型,可以处理复杂的数据集和较高的泛化性能,实现了对各个模型的互补,大大提高了预测的准确性,提高了预测速度。
在一个实施例中,所述通过数据集分别训练SVM模型、随机森林模型和决策树模型,获得训练输出数据;再通过训练输出数据训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型的步骤,包括:
将预处理后的数据集分成训练集和测试集,并将训练集分成K份;
用K-1份训练集训练SVM模型,再用剩余的1份训练集对训练好的SVM模型进行预测,获得预测的用户价值;以此迭代训练K次,获得初级的SVM模型、以及SVM模型预测的用户价值;将测试集重复K次输入至初级的SVM模型中,且将K次输出的数据相加取平均值作为SVM模型的测试输出数据;
用K-1份训练集训练随机森林模型,再用剩余的1份训练集对训练好的随机森林模型进行预测,获得预测的用户价值;以此迭代训练K次,获得初级的随机森林模型、以及随机森林模型预测的用户价值;将测试集重复K次输入至初级的随机森林模型中,且将K次输出的数据相加取平均值作为随机森林模型的测试输出数据;
用K-1份训练集训练决策树模型,再用剩余的1份训练集对训练好的决策树模型进行预测,获得预测的用户价值;以此迭代训练K次,获得初级的决策树模型、以及决策树模型预测的用户价值;将测试集重复K次输入至初级的决策树模型中,且将K次输出的数据相加取平均值作为决策树模型的测试输出数据;
将SVM模型的训练输出数据、随机森林模型的训练输出数据以及决策树模型的训练输出数据作为逻辑回归模型的训练集;将SVM模型的测试输出数据、随机森林模型的测试输出数据以及决策树模型的测试输出数据作为逻辑回归模型的测试集,对逻辑回归模型进行训练,获得最优的SVM模型、随机森林模型、决策树模型、以及逻辑回归模型。
本发明的数据集包括了用户的基础数据以及用户的充值付费数据等,具有多元化、复杂化等特点,发明人在实现本发明的过程中发现:单个预测模型很难拟合此类型的数据集,因为不同模型的优缺点都是不一样的,比如决策树可以预测大数据集,但它信息增益的结果更偏向于具有更多数值的特征,SVM在面对大规模训练样本的时候容易遇到多类的分类问题,但它有较高的泛化性能,若使用决策树+SVM并进行融合就可以在一定程度上形成互补,而本发明通过将SVM模型、随机森林模型和决策树模型进行数据预测,再通过逻辑回归模型将预测结果数据进行融合,既可以进行大数据集的预测,又可以处理复杂的数据集和较高的泛化性能,还可以快捷训练模型、提高预测的准确率,具有突出的积极效果。
在一个实施例中,所述用户的行为数据包括用户的基础数据和用户的充值付费数据。
在一个实施例中,所述用户的基础数据包括:用户消费总额、用户消费次数、用户平均每次消费的金额、用户充值总金额、用户的充值次数、用户平均每次充值的金额、用户使用的系统平台、用户的注册天数、用户在产品平台的VIP等级、以及用户在产品平台的渠道类型。
在一个实施例中,所述用户的充值付费数据包括:用户的自然周平均付费数据、用户的自然月平均付费数据、用户的自然季度平均付费数据、用户的自然周平均充值数据、用户的自然月平均充值数据、以及用户的自然季度平均充值数据。
在一个实施例中,所述对所述行为数据进行预处理的步骤,包括:
对于未充值也未付费的用户,设置其充值付费总额为0;
获取用户的IP地址,并判断用户IP地址是否真实,在IP地址不真实时,过滤所述用户的行为数据以及对应的用户价值;
过滤有缺失属性值的用户;
过滤有异常付费、极端付费的用户;
将用户的平台数据二元化;
对用户的注册渠道类型进行独热编码。
通过行为数据进行预处理,可提高后续预测用户价值的准确性。
在一个实施例中,对自然周、自然月、自然季度分别设置不同的权重A、B和C,其中A+B+C=1,将用户的自然周平均付费金额与权重A的乘积作为用户的自然周平均付费数据、用户的自然月平均付费金额与权重B的乘积作为用户的自然月平均付费数据、用户的自然季度平均付费金额与权重C的乘积用户的自然季度平均付费数据、用户的自然周平均充值金额与权重A的乘积作为用户的自然周平均充值数据、用户的自然月平均充值金额与权重B的乘积作为用户的自然月平均充值数据、以及用户的自然季度平均充值金额与权重C的乘积作为用户的自然季度平均充值数据。
本发明还提供一种用户价值预测装置,包括:
数据集获取模块,用于获取目标产品中用户的行为数据以及对应的用户价值,并对所述行为数据进行预处理,且将预处理后的行为数据和对应的用户价值存储为数据集;
最优模型确定模块,用于通过数据集分别训练SVM模型、随机森林模型和决策树模型,再用训练好的模型做预测,获得各模型预测的用户价值;通过各模型预测的用户价值以及对应的实际的用户价值训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型;
用户的行为数据获取模块,用于获取目标产品中待分析用户的行为数据,并对所述行为数据进行预处理;
用户价值确定模块,用于将预处理后的行为数据分别输入至最优的SVM模型、随机森林模型和决策树模型中,获得各模型预测的用户价值;将各模型预测的用户价值输入至最优的逻辑回归模型中,获得最终预测的用户价值。。
本发明还提供一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上述任意一项所述的用户价值预测方法的步骤。
本发明还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的用户价值预测方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明实施例中用户价值预测方法的流程图;
图2为本发明实施例中确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型的流程图。
具体实施方式
请参阅图1,本发明的用户价值预测方法,包括如下步骤:
步骤S1:获取目标产品中用户的行为数据以及对应的用户价值,并对所述行为数据进行预处理,且将预处理后的行为数据和对应的用户价值存储为数据集。
在一个实施例中,所述目标产品为用户可在产品上进行行为的产品,优选的,所述目标产品为用户可进行充值消费的产品,包括但不限于网上购物、或网络游戏企业等。
在一个实施中,所述用户价值可为用户对目标产品的贡献程度,贡献程度越高则用户价值越高,具体行为可表现为用户的活跃度以及付费内容,例如用户在产品里的活动参与情况、在线时长、付费金额等,而付费越多的用户越可能被定义为高价值用户,预测一个用户是否属于高价值用户,对运营业务有极大的支撑性作用,例如可以给用户做活动推送,充值推送等。在实施例中,根据用户在计算周期内的付费总额,对付费用户进行降序排名,以统计区间来划分用户付费层次:排名在前10%为高价值用户、排名在前11%-30%为中价值用户、排名在31%-100%为低价值用户。
在一个实施例中,为实现对数据的数字化处理,将所述用户价值设置为标签“1”或“0”,其中,标签“1”表征高价值用户,标签“0”表征非高价值用户,进而可快速判定待分析用户为高价值用户还是非高价值用户,从而实现为高价值用户提供专业的运营服务。
步骤S2:通过数据集分别训练SVM模型、随机森林模型和决策树模型,再用训练好的模型做预测,获得各模型预测的用户价值;通过各模型预测的用户价值以及对应的实际的用户价值训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型。
步骤S3:获取目标产品中待分析用户的行为数据,并对所述行为数据进行预处理。
步骤S4:将预处理后的行为数据分别输入至最优的SVM模型、随机森林模型和决策树模型中,获得各模型预测的用户价值;将各模型预测的用户价值输入至最优的逻辑回归模型中,获得最终预测的用户价值。
本发明通过对用户的行为数据先采用SVM模型、随机森林模型和决策树模型进行初次预测,获得各模型预测的用户价值,再通过逻辑回归模型将各模型预测的用户价值进行融合,获得最终的用户价值,实现既可以进行大数据集的预测,又可以快捷训练模型,可以处理复杂的数据集和较高的泛化性能,实现了对各个模型的互补,大大提高了预测的准确性,提高了预测速度。
在一个实施例中,所述用户的行为数据可包括用户的基础数据以及用户的充值付费数据。其中,所述用户的基础数据可包括用户在产品上的行为,具体可包括:用户消费总额、用户消费次数、用户平均每次消费的金额、用户充值总金额、用户的充值次数、用户平均每次充值的金额、用户使用的系统平台数据、用户的注册天数、用户在产品平台的VIP等级、以及用户在产品平台的渠道类型。其中,用户使用的系统平台为:用户登陆产品的系统是IOS系统或者是安卓系统。用户的注册天数为:用户自注册日期算起至数据集最后一天的日期长度。所述充值付费数据可包括用户在产品上的各种消费行为,具体可包括:用户的自然周平均付费数据、用户的自然月平均付费数据、用户的自然季度平均付费数据、用户的自然周平均充值数据、用户的自然月平均充值数据、以及用户的自然季度平均充值数据。
在一个实施例中,因为时间序列数据有着比较强的周期性和季节性,于是对自然周、自然月、自然季度分别设置不同的权重A、B和C,其中A+B+C=1,将用户的自然周平均付费金额与权重A的乘积作为用户的自然周平均付费数据、用户的自然月平均付费金额与权重B的乘积作为用户的自然月平均付费数据、用户的自然季度平均付费金额与权重C的乘积用户的自然季度平均付费数据、用户的自然周平均充值金额与权重A的乘积作为用户的自然周平均充值数据、用户的自然月平均充值金额与权重B的乘积作为用户的自然月平均充值数据、以及用户的自然季度平均充值金额与权重C的乘积作为用户的自然季度平均充值数据。为使最优的模型的拟合误差达到最小,在一个更优实施例中,在各个模型的每次训练过程中,自动化叠加或减少权重A、B和C中的其中一个值(如A值),并同时减少或增加另外2个值(如B值和C值)以使某个值在迭代变化的过程中,另外两个值也同步迭代变化,进而使权重A、B和C中的关系始终保持A+B+C=1。具体的,若权重A、B和C中的其中一个值变化的绝对值为H,则另外两个值变化的绝对值均为H/2。
为更加准确地预测用户价值,在一个更优实施例中,在步骤S1和步骤S3中,所述对用户的所述行为数据进行预处理的步骤,均包括:
对于未充值也未付费的用户,设置其充值付费总额为0;
获取用户的IP地址,并判断用户IP地址是否真实,在IP地址不真实时,过滤所述用户的行为数据以及对应的用户价值;
过滤有缺失属性值的用户;
过滤有异常付费、极端付费的用户;
将用户的平台数据二元化;
对用户的注册渠道类型进行独热编码。
请参阅图2,在一个实施例中,步骤S2中,所述通过数据集分别训练SVM模型、随机森林模型和决策树模型,再用训练好的模型做预测,获得各模型预测的用户价值;通过各模型预测的用户价值以及对应的实际的用户价值训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型的步骤,包括:
步骤S21:将预处理后的数据集分成训练集和测试集,并将训练集分成K份;
步骤S22:用K-1份训练集训练SVM模型,再用剩余的1份训练集对训练好的SVM模型进行预测,获得预测的用户价值,以此迭代训练K次,获得初级的SVM模型、以及SVM模型预测的用户价值;将测试集重复K次输入至初级的SVM模型中,且将K次输出的数据相加取平均值作为SVM模型的测试输出数据;
步骤S23:用K-1份训练集训练随机森林模型,再用剩余的1份训练集对训练好的随机森林模型进行预测,获得预测的用户价值,以此迭代训练K次,获得初级的随机森林模型、以及随机森林模型预测的用户价值;将测试集重复K次输入至初级的随机森林模型中,且将K次输出的数据相加取平均值作为随机森林模型的测试输出数据;
步骤S24:用K-1份训练集训练决策树模型,再用剩余的1份训练集对训练好的决策树模型进行预测,获得预测的用户价值,以此迭代训练K次,获得初级的决策树模型、以及决策树模型预测的用户价值;将测试集重复K次输入至初级的决策树模型中,且将K次输出的数据相加取平均值作为决策树模型的测试输出数据;
步骤S25:将SVM模型预测的用户价值、随机森林模型预测的用户价值以及决策树模型预测的用户价值作为逻辑回归模型的训练集;将SVM模型的测试输出数据、随机森林模型的测试输出数据以及决策树模型的测试输出数据作为逻辑回归模型的测试集,对逻辑回归模型进行训练,获得最优的SVM模型、随机森林模型、决策树模型、以及逻辑回归模型。
本发明的数据集包括了用户的基础数据以及用户的充值付费数据等,具有多元化、复杂化等特点,发明人在实现本发明的过程中发现:单个预测模型很难拟合此类型的数据集,因为不同模型的优缺点都是不一样的,比如决策树可以预测大数据集,但它信息增益的结果更偏向于具有更多数值的特征,SVM在面对大规模训练样本的时候容易遇到多类的分类问题,但它有较高的泛化性能,若使用决策树+SVM并进行融合就可以在一定程度上形成互补,而本发明通过将SVM模型、随机森林模型和决策树模型进行数据预测,再通过逻辑回归模型将预测结果数据进行融合,既可以进行大数据集的预测,又可以处理复杂的数据集和较高的泛化性能,还可以快捷训练模型、提高预测的准确率,具有突出的积极效果。通过将K-1份的训练集对模型进行重复训练K次,可获得总的错误分类率,进而可提高模型的精确度,提高后续预测的准确性。
下面举个具体的例子进行说明:
本发明选取了两个周期的数据集,将数据集按照产生的时间先后顺序分为period_0,period_1共两个周期,其中,period_0的用户对应的高价值标签数据在period_1,period_1作为待分析的用户的基础数据和充值付费数据。将所有period_0的数据x分成训练集train_x和测试集test_x两部分,训练集train_x的数据大小为M,测试集test_x的数据大小为N。将训练集train_x数据等比分成K=5份,每份M/5行数据,再将其中的4份数据训练模型SVM,训练好模型后再用剩下的1份数据对训练好的SVM模型进行预测,获得一份预测的用户价值。以此迭代训练5次,获得初级的SVM模型、以及SVM模型预测的用户价值,即5份M/5行的数据,再将该5份M/5行的数据合并成为新的M行数据集a1。另外,以N行的test_x数据为输入,用初级的SVM模型预测5次,再将5次得出的N行数据结果相加取平均值得出一个新的N行的数据集b1。按照上述同样的步骤和数据对随机森林模型和决策树模型进行训练,获得训练好的随机森林模型和决策树模型,以及数据集a1,a2,a3还有b1,b2,b3;再将数据集a1,a2,a3合并成一个每列M行数据共三列的矩阵A1,将b1,b2,b3合并成一个每列N行数据共三列的矩阵B1。最后将A1作为逻辑回归模型的训练集Train_A1输入到逻辑回归模型中对逻辑回归模型,并将训练结果与实际的用户价值进行调参,再将B1作为逻辑回归模型的测试集Test_B1对逻辑回归模型进行预测,进而获得最优的SVM模型、随机森林模型、决策树模型以及逻辑回归模型。其中,调参的方法可以有调整K的数值并反复训练得出最佳的K值,或者是更换模型。最后可将period_1中的用户基础数据和充值付费数据,输入至各最优模型,预测用户在未来的周期内是否属于高价值用户。
本发明还提供一种用户价值预测装置,包括:
数据集获取模块,用于获取目标产品中用户的行为数据以及对应的用户价值,并对所述行为数据进行预处理,且将预处理后的行为数据和对应的用户价值存储为数据集;
最优模型确定模块,用于通过数据集分别训练SVM模型、随机森林模型和决策树模型,获得训练输出数据;再通过训练输出数据训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型;
用户的行为数据获取模块,用于获取目标产品中待分析用户的行为数据,并对所述行为数据进行预处理;
用户价值确定模块,用于将预处理后的行为数据分别输入至最优的SVM模型、随机森林模型和决策树模型中,获得各模型预测的用户价值;将各模型预测的用户价值输入至最优的逻辑回归模型中,获得最终预测的用户价值。
本发明通过对用户的行为数据先采用SVM模型、随机森林模型和决策树模型进行初次预测,获得各模型预测的用户价值,再通过逻辑回归模型将各模型预测的用户价值进行融合,获得最终的用户价值,实现既可以进行大数据集的预测,又可以快捷训练模型,可以处理复杂的数据集和较高的泛化性能,实现了对各个模型的互补,大大提高了预测的准确性,提高了预测速度。
在一个实施例中,所述用户的行为数据可包括用户的基础数据以及用户的充值付费数据。其中,所述用户的基础数据可包括用户在产品上的行为,具体可包括:用户消费总额、用户消费次数、用户平均每次消费的金额、用户充值总金额、用户的充值次数、用户平均每次充值的金额、用户使用的系统平台数据、用户的注册天数、用户在产品平台的VIP等级、以及用户在产品平台的渠道类型。其中,用户使用的系统平台为:用户登陆产品的系统是IOS系统或者是安卓系统。用户的注册天数为:用户自注册日期算起至数据集最后一天的日期长度。所述充值付费数据可包括用户在产品上的各种消费行为,具体可包括:用户的自然周平均付费数据、用户的自然月平均付费数据、用户的自然季度平均付费数据、用户的自然周平均充值数据、用户的自然月平均充值数据、以及用户的自然季度平均充值数据。
在一个实施例中,因为时间序列数据有着比较强的周期性和季节性,于是对自然周、自然月、自然季度分别设置不同的权重A、B和C,其中A+B+C=1,将用户的自然周平均付费金额与权重A的乘积作为用户的自然周平均付费数据、用户的自然月平均付费金额与权重B的乘积作为用户的自然月平均付费数据、用户的自然季度平均付费金额与权重C的乘积用户的自然季度平均付费数据、用户的自然周平均充值金额与权重A的乘积作为用户的自然周平均充值数据、用户的自然月平均充值金额与权重B的乘积作为用户的自然月平均充值数据、以及用户的自然季度平均充值金额与权重C的乘积作为用户的自然季度平均充值数据。为使最优的模型的拟合误差达到最小,在一个更优实施例中,在各个模型的每次训练过程中,自动化叠加A值,并同时减少B值和C值,以使A值越来越大,B值、C值同步越来越小。具体的,若所述A值的增值为H,则B值和C值的增值均为-H/2。
为更加准确地预测用户价值,在一个更优实施例中,所述将用户的行为数据进行预处理的步骤,包括:
对于未充值也未付费的用户,设置其充值付费总额为0;
根据用户获取的IP地址,判断用户是否存在,若不存在,则不进行价值分析;若存在,才进行价值分析;
过滤有缺失基础数据的用户;
过滤有异常付费、极端付费的用户;
将用户使用的系统平台数二元化;
对用户的注册渠道类型进行独热编码。
在一个实施例中,所述最优模型确定模块,包括:
训练集和测试集确定模块,用于将预处理后的数据集分成训练集和测试集,并将训练集分成K份;
SVM模型训练模块,用K-1份训练集训练SVM模型,再用剩余的1份训练集对训练好的SVM模型进行预测,获得预测的用户价值;以此迭代训练K次,获得初级的SVM模型、以及SVM模型预测的用户价值;将测试集重复K次输入至初级的SVM模型中,且将K次输出的数据相加取平均值作为SVM模型的测试输出数据;
随机森林模型训练模块,用于用K-1份训练集训练随机森林模型,再用剩余的1份训练集对训练好的随机森林模型进行预测,获得预测的用户价值;以此迭代训练K次,获得初级的随机森林模型、以及随机森林模型预测的用户价值;将测试集重复K次输入至初级的随机森林模型中,且将K次输出的数据相加取平均值作为随机森林模型的测试输出数据;
决策树模型训练模块,用于用K-1份训练集训练决策树模型,再用剩余的1份训练集对训练好的决策树模型进行预测,获得预测的用户价值;以此迭代训练K次,获得初级的决策树模型、以及决策树模型预测的用户价值;将测试集重复K次输入至初级的决策树模型中,且将K次输出的数据相加取平均值作为决策树模型的测试输出数据;
逻辑回归模型训练模块,用于将SVM模型的训练输出数据、随机森林模型的训练输出数据以及决策树模型的训练输出数据作为逻辑回归模型的训练集;将SVM模型的测试输出数据、随机森林模型的测试输出数据以及决策树模型的测试输出数据作为逻辑回归模型的测试集,对逻辑回归模型进行训练,获得最优的SVM模型、随机森林模型、决策树模型、以及逻辑回归模型。
本发明的数据集包括了用户的基础数据以及用户的充值付费数据等,具有多元化、复杂化等特点,发明人在实现本发明的过程中发现:单个预测模型很难拟合此类型的数据集,因为不同模型的优缺点都是不一样的,比如决策树可以预测大数据集,但它信息增益的结果更偏向于具有更多数值的特征,SVM在面对大规模训练样本的时候容易遇到多类的分类问题,但它有较高的泛化性能,若使用决策树+SVM并进行融合就可以在一定程度上形成互补,而本发明通过将SVM模型、随机森林模型和决策树模型进行数据预测,再通过逻辑回归模型将预测结果数据进行融合,既可以进行大数据集的预测,又可以处理复杂的数据集和较高的泛化性能,还可以快捷训练模型、提高预测的准确率,具有突出的积极效果。
本发明还提供一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的用户价值预测方法的步骤。
本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本发明还提供一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的用户价值预测方法的步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种用户价值预测方法,其特征在于,包括如下步骤:
获取目标产品中用户的行为数据以及对应的用户价值,并对所述行为数据进行预处理,且将预处理后的行为数据和对应的用户价值存储为数据集;
通过数据集分别训练SVM模型、随机森林模型和决策树模型,再用训练好的模型做预测,获得各模型预测的用户价值;通过各模型预测的用户价值以及对应的实际的用户价值训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型;
获取目标产品中待分析用户的行为数据,并对所述行为数据进行预处理;
将预处理后的行为数据分别输入至最优的SVM模型、随机森林模型和决策树模型中,获得各模型预测的用户价值;将各模型预测的用户价值输入至最优的逻辑回归模型中,获得最终预测的用户价值。
2.根据权利要求1所述的用户价值预测方法,其特征在于:所述通过数据集分别训练SVM模型、随机森林模型和决策树模型,再用训练好的模型做预测,获得各模型预测的用户价值;通过各模型预测的用户价值以及对应的实际的用户价值训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型的步骤,包括:
将预处理后的数据集分成训练集和测试集,并将训练集分成K份;
用K-1份训练集训练SVM模型,再用剩余的1份训练集对训练好的SVM模型进行预测,获得预测的用户价值;以此迭代训练K次,获得初级的SVM模型、以及SVM模型预测的用户价值;将测试集重复K次输入至初级的SVM模型中,且将K次输出的数据相加取平均值作为SVM模型的测试输出数据;
用K-1份训练集训练随机森林模型,再用剩余的1份训练集对训练好的随机森林模型进行预测,获得预测的用户价值;以此迭代训练K次,获得初级的随机森林模型、以及随机森林模型预测的用户价值;将测试集重复K次输入至初级的随机森林模型中,且将K次输出的数据相加取平均值作为随机森林模型的测试输出数据;
用K-1份训练集训练决策树模型,再用剩余的1份训练集对训练好的决策树模型进行预测,获得预测的用户价值;以此迭代训练K次,获得初级的决策树模型、以及决策树模型预测的用户价值;将测试集重复K次输入至初级的决策树模型中,且将K次输出的数据相加取平均值作为决策树模型的测试输出数据;
将SVM模型预测的用户价值、随机森林模型预测的用户价值以及决策树模型预测的用户价值作为逻辑回归模型的训练集;将SVM模型的测试输出数据、随机森林模型的测试输出数据以及决策树模型的测试输出数据作为逻辑回归模型的测试集,对逻辑回归模型进行训练,确定最优的SVM模型、随机森林模型、决策树模型、以及逻辑回归模型。
3.根据权利要求1所述的用户价值预测方法,其特征在于,所述用户的行为数据包括用户的基础数据和用户的充值付费数据。
4.根据权利要求3所述的用户价值预测方法,其特征在于,所述用户的基础数据包括:用户消费总额、用户消费次数、用户平均每次消费的金额、用户充值总金额、用户的充值次数、用户平均每次充值的金额、用户使用的系统平台、用户的注册天数、用户在产品平台的VIP等级、以及用户在产品平台的渠道类型。
5.根据权利要求4所述的用户价值预测方法,其特征在于,所述用户的充值付费数据包括:用户的自然周平均付费数据、用户的自然月平均付费数据、用户的自然季度平均付费数据、用户的自然周平均充值数据、用户的自然月平均充值数据、以及用户的自然季度平均充值数据。
6.根据权利要求5所述的用户价值预测方法,其特征在于,所述对所述行为数据进行预处理的步骤,包括:
对于未充值也未付费的用户,设置其充值付费总额为0;
获取用户的IP地址,并判断用户IP地址是否真实,在IP地址不真实时,过滤所述用户的行为数据以及对应的用户价值;
过滤有缺失属性值的用户;
过滤有异常付费、极端付费的用户;
将用户的平台数据二元化;
对用户的注册渠道类型进行独热编码。
7.根据权利要求5所述的用户价值预测方法,其特征在于,对自然周、自然月、自然季度分别设置不同的权重A、B和C,其中A+B+C=1,将用户的自然周平均付费金额与权重A的乘积作为用户的自然周平均付费数据、用户的自然月平均付费金额与权重B的乘积作为用户的自然月平均付费数据、用户的自然季度平均付费金额与权重C的乘积用户的自然季度平均付费数据、用户的自然周平均充值金额与权重A的乘积作为用户的自然周平均充值数据、用户的自然月平均充值金额与权重B的乘积作为用户的自然月平均充值数据、以及用户的自然季度平均充值金额与权重C的乘积作为用户的自然季度平均充值数据。
8.一种用户价值预测装置,其特征在于,包括:
数据集获取模块,用于获取目标产品中用户的行为数据以及对应的用户价值,并对所述行为数据进行预处理,且将预处理后的行为数据和对应的用户价值存储为数据集;
最优模型确定模块,用于通过数据集分别训练SVM模型、随机森林模型和决策树模型,再用训练好的模型做预测,获得各模型预测的用户价值;通过各模型预测的用户价值以及对应的实际的用户价值训练逻辑回归模型,确定最优的SVM模型、随机森林模型和决策树模型以及逻辑回归模型;
用户的行为数据获取模块,用于获取目标产品中待分析用户的行为数据,并对所述行为数据进行预处理;
用户价值确定模块,用于将预处理后的行为数据分别输入至最优的SVM模型、随机森林模型和决策树模型中,获得各模型预测的用户价值;将各模型预测的用户价值输入至最优的逻辑回归模型中,获得最终预测的用户价值。
9.一种计算机可读存储介质,其上储存有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的用户价值预测方法的步骤。
10.一种计算机设备,其特征在于,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的用户价值预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811494007.8A CN109325640B (zh) | 2018-12-07 | 2018-12-07 | 用户价值预测方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811494007.8A CN109325640B (zh) | 2018-12-07 | 2018-12-07 | 用户价值预测方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325640A true CN109325640A (zh) | 2019-02-12 |
CN109325640B CN109325640B (zh) | 2022-04-26 |
Family
ID=65256137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811494007.8A Active CN109325640B (zh) | 2018-12-07 | 2018-12-07 | 用户价值预测方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325640B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288032A (zh) * | 2019-06-27 | 2019-09-27 | 武汉中海庭数据技术有限公司 | 一种车辆行驶轨迹类型检测方法及装置 |
CN110706822A (zh) * | 2019-09-20 | 2020-01-17 | 上海派拉软件股份有限公司 | 基于逻辑回归模型和决策树模型的健康管理方法 |
CN111311338A (zh) * | 2020-03-30 | 2020-06-19 | 网易(杭州)网络有限公司 | 用户价值的预测方法以及用户价值预测模型的训练方法 |
CN112446425A (zh) * | 2020-11-20 | 2021-03-05 | 北京思特奇信息技术股份有限公司 | 一种用于自动获取疑似养卡渠道的方法和装置 |
CN112712383A (zh) * | 2019-10-24 | 2021-04-27 | 上海莉莉丝科技股份有限公司 | 应用程序的潜在用户预测方法、装置、设备及存储介质 |
CN112819045A (zh) * | 2021-01-20 | 2021-05-18 | 国家卫生健康委科学技术研究所 | 用于用户生理状态分类的方法、装置、电子设备及介质 |
CN113205367A (zh) * | 2021-05-24 | 2021-08-03 | 上海钧正网络科技有限公司 | 一种用户数据处理方法、装置、电子设备和存储介质 |
CN113222760A (zh) * | 2021-05-19 | 2021-08-06 | 上海优方信息科技服务股份有限公司 | 用户数据处理方法以及相关装置 |
CN113469721A (zh) * | 2020-03-30 | 2021-10-01 | 北京沃东天骏信息技术有限公司 | 一种处理用户信息的方法及装置 |
CN113457167A (zh) * | 2021-06-29 | 2021-10-01 | 网易(杭州)网络有限公司 | 用户分类网络的训练方法、用户分类方法及装置 |
CN113538070A (zh) * | 2020-10-30 | 2021-10-22 | 深圳市九九互动科技有限公司 | 用户生命价值周期检测方法、装置和计算机设备 |
CN113706182A (zh) * | 2020-05-20 | 2021-11-26 | 北京沃东天骏信息技术有限公司 | 一种用户分类方法和装置 |
CN114202371A (zh) * | 2022-02-17 | 2022-03-18 | 广州幸运游戏科技有限公司 | 一种电子会员卡管理方法、系统及计算机存储介质 |
CN115099317A (zh) * | 2022-06-14 | 2022-09-23 | 上海幻电信息科技有限公司 | 基于双层子分类模型的用户价值分类方法及装置 |
CN115475389A (zh) * | 2021-05-31 | 2022-12-16 | 杭州电魂网络科技股份有限公司 | 游戏用户付费级别预测方法、系统、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060015561A1 (en) * | 2004-06-29 | 2006-01-19 | Microsoft Corporation | Incremental anti-spam lookup and update service |
CN106709513A (zh) * | 2016-12-10 | 2017-05-24 | 中泰证券股份有限公司 | 一种基于有监督机器学习的证券配资账户识别方法 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
CN107590558A (zh) * | 2017-03-07 | 2018-01-16 | 北京理工大学 | 一种基于多层集成学习的微博转发预测方法 |
CN108364187A (zh) * | 2017-12-20 | 2018-08-03 | 国网冀北电力有限公司承德供电公司 | 一种基于停电敏感特性的停电敏感用户确定方法和系统 |
CN108764517A (zh) * | 2018-04-08 | 2018-11-06 | 中南大学 | 一种高炉铁水硅含量变化趋势预测方法、设备和存储介质 |
-
2018
- 2018-12-07 CN CN201811494007.8A patent/CN109325640B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060015561A1 (en) * | 2004-06-29 | 2006-01-19 | Microsoft Corporation | Incremental anti-spam lookup and update service |
CN106709513A (zh) * | 2016-12-10 | 2017-05-24 | 中泰证券股份有限公司 | 一种基于有监督机器学习的证券配资账户识别方法 |
CN107590558A (zh) * | 2017-03-07 | 2018-01-16 | 北京理工大学 | 一种基于多层集成学习的微博转发预测方法 |
CN107423442A (zh) * | 2017-08-07 | 2017-12-01 | 火烈鸟网络(广州)股份有限公司 | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 |
CN108364187A (zh) * | 2017-12-20 | 2018-08-03 | 国网冀北电力有限公司承德供电公司 | 一种基于停电敏感特性的停电敏感用户确定方法和系统 |
CN108764517A (zh) * | 2018-04-08 | 2018-11-06 | 中南大学 | 一种高炉铁水硅含量变化趋势预测方法、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
王智圣,李琪,汪静,印鉴: "基于隐式用户反馈数据流的实时个性化推荐", 《计算机学报》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110288032A (zh) * | 2019-06-27 | 2019-09-27 | 武汉中海庭数据技术有限公司 | 一种车辆行驶轨迹类型检测方法及装置 |
CN110288032B (zh) * | 2019-06-27 | 2021-08-17 | 武汉中海庭数据技术有限公司 | 一种车辆行驶轨迹类型检测方法及装置 |
CN110706822A (zh) * | 2019-09-20 | 2020-01-17 | 上海派拉软件股份有限公司 | 基于逻辑回归模型和决策树模型的健康管理方法 |
CN110706822B (zh) * | 2019-09-20 | 2024-02-02 | 上海派拉软件股份有限公司 | 基于逻辑回归模型和决策树模型的健康管理方法 |
CN112712383A (zh) * | 2019-10-24 | 2021-04-27 | 上海莉莉丝科技股份有限公司 | 应用程序的潜在用户预测方法、装置、设备及存储介质 |
CN111311338A (zh) * | 2020-03-30 | 2020-06-19 | 网易(杭州)网络有限公司 | 用户价值的预测方法以及用户价值预测模型的训练方法 |
CN113469721A (zh) * | 2020-03-30 | 2021-10-01 | 北京沃东天骏信息技术有限公司 | 一种处理用户信息的方法及装置 |
CN113706182A (zh) * | 2020-05-20 | 2021-11-26 | 北京沃东天骏信息技术有限公司 | 一种用户分类方法和装置 |
CN113538070A (zh) * | 2020-10-30 | 2021-10-22 | 深圳市九九互动科技有限公司 | 用户生命价值周期检测方法、装置和计算机设备 |
CN113538070B (zh) * | 2020-10-30 | 2023-12-26 | 深圳市九九互动科技有限公司 | 用户生命价值周期检测方法、装置和计算机设备 |
CN112446425A (zh) * | 2020-11-20 | 2021-03-05 | 北京思特奇信息技术股份有限公司 | 一种用于自动获取疑似养卡渠道的方法和装置 |
CN112819045A (zh) * | 2021-01-20 | 2021-05-18 | 国家卫生健康委科学技术研究所 | 用于用户生理状态分类的方法、装置、电子设备及介质 |
CN113222760A (zh) * | 2021-05-19 | 2021-08-06 | 上海优方信息科技服务股份有限公司 | 用户数据处理方法以及相关装置 |
CN113205367A (zh) * | 2021-05-24 | 2021-08-03 | 上海钧正网络科技有限公司 | 一种用户数据处理方法、装置、电子设备和存储介质 |
CN115475389A (zh) * | 2021-05-31 | 2022-12-16 | 杭州电魂网络科技股份有限公司 | 游戏用户付费级别预测方法、系统、设备和存储介质 |
CN113457167A (zh) * | 2021-06-29 | 2021-10-01 | 网易(杭州)网络有限公司 | 用户分类网络的训练方法、用户分类方法及装置 |
CN114202371A (zh) * | 2022-02-17 | 2022-03-18 | 广州幸运游戏科技有限公司 | 一种电子会员卡管理方法、系统及计算机存储介质 |
CN115099317A (zh) * | 2022-06-14 | 2022-09-23 | 上海幻电信息科技有限公司 | 基于双层子分类模型的用户价值分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109325640B (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325640A (zh) | 用户价值预测方法、装置、存储介质及设备 | |
US8600709B2 (en) | Adaptive analytics multidimensional processing system | |
CN102890803B (zh) | 电子商品异常交易过程的确定方法及其装置 | |
CN106156809A (zh) | 用于更新分类模型的方法及装置 | |
EP2273431B1 (en) | Model determination system | |
CN107203774A (zh) | 对数据的归属类别进行预测的方法及装置 | |
WO2019112993A1 (en) | System and method for user-level lifetime value prediction | |
CN110880127B (zh) | 消费水平的预测方法、装置、电子设备及存储介质 | |
CN109784779A (zh) | 财务风险预测方法、装置及存储介质 | |
CN110163683B (zh) | 价值用户关键指标确定方法、广告投放方法及装置 | |
CN101483531A (zh) | 一种预测式余额告警的方法及系统 | |
CN108053322A (zh) | 车辆的用户投资回报估算方法及系统 | |
CN107437199A (zh) | 平台收益预测方法及装置 | |
CN109741177A (zh) | 用户信用的评估方法、装置及智能终端 | |
CN111882420A (zh) | 响应率的生成方法、营销方法、模型训练方法及装置 | |
US20140289007A1 (en) | Scenario based customer lifetime value determination | |
CN107741986A (zh) | 用户行为预测及相应信息推荐方法和装置 | |
CN108572988A (zh) | 一种房产评估数据生成方法和装置 | |
CN111408143A (zh) | 游戏付费预测方法、模型训练方法及装置 | |
AU2024202927A1 (en) | Computer-based data collection, management, and forecasting | |
CN109492863A (zh) | 金融单证的自动生成方法及装置 | |
CN118134652A (zh) | 一种资产配置方案生成方法、装置、电子设备及介质 | |
CN113450158A (zh) | 银行活动信息推送方法及装置 | |
CN109697203A (zh) | 指标异动分析方法及设备、计算机存储介质、计算机设备 | |
CN108241643A (zh) | 关键词的指标数据分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |