CN110533459A - 一种基于梯度提升算法的终端更换概率预测方法及装置 - Google Patents
一种基于梯度提升算法的终端更换概率预测方法及装置 Download PDFInfo
- Publication number
- CN110533459A CN110533459A CN201910727070.XA CN201910727070A CN110533459A CN 110533459 A CN110533459 A CN 110533459A CN 201910727070 A CN201910727070 A CN 201910727070A CN 110533459 A CN110533459 A CN 110533459A
- Authority
- CN
- China
- Prior art keywords
- user
- terminal
- gradient boosting
- boosting algorithm
- algorithm model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 122
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 75
- 230000009467 reduction Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 31
- 235000012054 meals Nutrition 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims 2
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 13
- 230000008569 process Effects 0.000 description 14
- 238000003860 storage Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 201000004409 schistosomiasis Diseases 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于梯度提升算法的终端更换概率预测方法及装置,涉及通信领域,用于预测未来一段时间内用户更换终端的概率。包括:从运营商系统中获取多个用户一段时间内相关数据并生成训练集和验证集;利用训练集对梯度提升算法模型进行训练;其中,每进行一轮训练后,生成验证集损失值,并根据验证集损失值,调节下一轮训练中梯度提升算法模型的学习率;梯度提升算法模型的学习率随验证集损失值的降低而降低;梯度提升算法模型训练结束后,根据训练好的梯度提升算法模型生成第二模型;利用第二模型进行预测,生成用户未来一段时间内终端更换概率。本申请实施例应用于预测用户终端更换。
Description
技术领域
本发明涉及通信,尤其涉及一种基于梯度提升算法的终端更换概率预测方法及装置。
背景技术
近年来,移动终端市场增长乏力,各大终端厂商也逐渐将注意力从争夺新用户向存量用户博弈转移,通过与手机厂商合作,推出各种类型的合约机,优惠幅度大,甚至零元购机,以此来吸引用户,同时增加用户粘性,保证用户的未来一年到几年的稳定性。
为了更加精准的向目标用户推销,就需要了解目标用户未来一段时间内的终端更换概率,因此一个好的用户终端更换预测模型就尤其重要。目前针对终端更换概率预测模型有传统的逻辑回归、决策树等单模型,这类模型的训练和部署都较为简单,针对特征维度较低的场景有不错的效果,但随着用户特征维度的不断的增多,单模型预测的精度不能满足需求。
目前针对高维特征的场景,梯度提升树算法在终端更换预测中较为常见。目前的梯度提升算法大多网格搜索法来调整参数以及学习率,寻找最优参数,但是这种方法存在学习阶段耗费资源大,训练时间长等问题。
发明内容
本申请的实施例提供一种基于梯度提升算法的终端更换概率预测方法及装置,用于预测用户未来几个月更换终端的概率。
为达到上述目的,本申请的实施例采用如下技术方案:
第一方面,提供了一种基于梯度提升算法的终端更换概率预测方法,该方法包括:从运营商系统中获取多个用户一段时间内相关数据;根据相关数据,生成样本集;样本集具体包括:用户特征数据以及预测标签;用户特征数据,具体包括:前m个月内多个用户的用户个人信息、用户每月消费详情、用户每月套餐使用详情、用户终端相关信息、用户终端更换详情;预测标签,具体包括:后n个月内多个用户是否更换终端;将样本集中的多个用户中x1个用户样本作为训练集,多个用户中x2个用户样本作为验证集;初始化梯度提升算法模型和学习率;利用训练集对梯度提升算法模型进行训练;其中,每进行一轮训练后,生成验证集损失值,并根据验证集损失值,调节下一轮训练中梯度提升算法模型的学习率;其中,验证集损失值为利用训练好的梯度提升算法模型进行预测生成预测结果,然后利用验证集对预测结果进行验证生成的;梯度提升算法模型的学习率随验证集损失值的降低而降低;梯度提升算法模型训练结束后,根据训练好的梯度提升算法模型生成第二模型;利用第二模型进行预测,生成用户未来一段时间内终端更换概率。
第二方面,提供了一种基于梯度提升算法的终端更换概率预测装置,该装置包括获取单元、计算单元及生成单元;获取单元,用于从运营商系统中获取多个用户一段时间内相关数据;根据相关数据,生成样本集;样本集具体包括:用户特征数据以及预测标签;用户特征数据,具体包括:前m个月内多个用户的用户个人信息、用户每月消费详情、用户每月套餐使用详情、用户终端相关信息、用户终端更换详情;预测标签,具体包括:后n个月内多个用户是否更换终端;将样本集中的多个用户中x1个用户样本作为训练集,多个用户中x2个用户样本作为验证集;计算单元,用于初始化梯度提升算法模型和学习率;利用训练集对梯度提升算法模型进行训练;其中,每进行一轮训练后,生成验证集损失值,并根据验证集损失值,调节下一轮训练中梯度提升算法模型的学习率;其中,验证集损失值为利用训练好的梯度提升算法模型进行预测生成预测结果,然后利用验证集对预测结果进行验证生成的;梯度提升算法模型的学习率随验证集损失值的降低而降低;生成单元,用户在计算单元对梯度提升算法模型训练结束后,根据训练好的梯度提升算法模型生成第二模型;利用第二模型进行预测,生成用户未来一段时间内终端更换概率。
本申请的实施例提供的基于梯度提升算法的终端更换概率预测方法及装置,通过在梯度提升算法模型训练过程中,学习率随着验证集损失值的降低而降低,在不影响预测准确率的前提下,大幅节省了训练时间以及减少了对计算机资源的占用。
附图说明
图1为本申请的实施例提供的一种基于梯度提升算法的终端更换概率预测方法流程示意图;
图2为本申请的实施例提供的一种梯度提升算法模型流程示意图;
图3为本申请的实施例提供的一种基于梯度提升算法的终端更换概率预测装置结构示意图;
图4为本申请的实施例提供的又一种基于梯度提升算法的终端更换概率预测装置结构示意图;
图5为本申请的实施例提供的又一种基于梯度提升算法的终端更换概率预测装置结构示意图。
具体实施方式
下面先对本申请实施例涉及的一些概念进行简单介绍,并将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,除非另有说明,“/”表示“或”的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。此外,“至少一个”是指一个或多个,“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
实施例一:
本申请实施例提供一种基于梯度提升算法的终端更换概率预测方法,应用于通信网络中,如图1所示,为本发明实施例提供的一种基于梯度提升算法的终端更换概率预测方法流程示意图:
S101、从运营商系统中获取多个用户一段时间内相关数据并生成训练集和验证集;
在一种实现方式中,从运营商系统中获取多个用户一段时间内相关数据,根据相关数据,生成样本集。样本集具体包括:用户特征数据以及预测标签。用户特征数据,具体包括:前m个月内多个用户的用户个人信息、用户每月消费详情、用户每月套餐使用详情、用户终端相关信息、用户终端更换详情。预测标签,具体包括:后n个月内多个用户是否更换终端。将样本集中的多个用户中x1个用户样本作为训练集,多个用户中x2个用户样本作为验证集。
示例性的,为了训练基于改进的梯度提升树模型,从运营商系统中收集了9个月的用户相关数据。将收集的数据中前6个月的用户相关数据作为样本集中用户样本的特征数据,将后3个月用户是否更换了终端作为样本集中用户样本的预测标签。将样本集中的用户样本按照7:2:1的比例分为训练集、验证集和测试集。也可以根据不同任务自行决策,但训练集比例一般不低于60%。
上述收集的用户信息如表1所示:包括用户年龄、用户性别、用户月均消费、用户月消费最大值、用户月消费最小值、用户月消费中位数、用户月均通话时长、用户月通话时长最大值、用户月通话时长最小值、用户月通话时长中位数、用户月均流量、用户月流量最大值、用户月流量最小值、用户月流量中位数、统计时段内用户使用终端价格的均值、统计时段内用户使用终端价格的最大值、统计时段内用户使用终端价格的最小值、统计时段内用户使用终端价格的中位数、统计时段内用户更换终端的次数、第一终端类型、第二终端类型、最近一次终端价格区间、最近一次终端品牌。第一终端类型,为用户最近一次使用终端的网络制式。第二终端类型,为用户最近一次使用终端的产品类型。
表1
S102、初始化梯度提升算法模型和学习率。
对于回归任务,梯度提升算法的初始化函数为:
其中,m为训练样本数量,y(i)为预测标签值。
对于二分类任务,梯度提升算法的初始化函数为:
其中,m为训练样本数量,y(i)为预测标签值。对于多分类任务,可以按照N个二分类任务的组合处理。
S103、利用训练集对梯度提升算法模型进行训练。其中,每进行一轮训练后,生成验证集损失值,并根据验证集损失值,调节下一轮训练中梯度提升算法模型的学习率。
其中,验证集损失值为利用训练好的梯度提升算法模型进行预测生成预测结果,然后利用验证集对预测结果进行验证生成的。其中,在根据所述验证集损失值,调节下一轮训练中所述梯度提升算法模型的学习率时,梯度提升算法模型的学习率随验证集损失值的降低而降低。
S104、梯度提升算法模型训练结束后,根据训练好的梯度提升算法模型生成第二模型。利用第二模型进行预测,生成用户未来一段时间内终端更换概率。
在一种实现方式中,本申请实施例中可以利用得到最小验证集损失值的一轮训练中的参数以及学习率生成第二模型。
利用第二模型对测试集进行预测,得到用户未来一段时间更换终端的概率。同时,可以根据用户最近一次使用终端的品牌及价格,对具有换机意向的客户通过短信或者其他途径推送适合用户的终端。
为了更加详细的对本申请中利用的梯度提升算法模型训练过程进行说明,如图2所示,为本申请中的梯度提升算法模型流程示意图。具体步骤包括:
S1、初始化F0(x)。
S2、计算损失函数的负梯度,初始化N_step=0,损失函数的负梯度计算公式为:
其中,x(i)代表第i个样本,是一个n维向量,维度与样本特征数量有关。以下函数表示损失函数的负梯度,即L(y(i),Fn_round-1(x(i)))的导数,因为函数在梯度方向变化最快,因此每一轮训练都让损失函数向其下降最快的方向上靠近。L(y(i),Fn_round-1(x(i)))中的L代表损失函数(loss function)。
损失函数L(y(i),Fn_round-1(x(i)))在回归任务中可以一般使用均方误差损失函数(mean square error,MSE),在二分类任务中一般使用对数损失函数(logarithmic lossfunction,logloss),也可以使用自定义损失函数,只要满足其在定义域连续可导即可,若使用XGBoost(extreme gradient boosting)算法需要满足二阶可导。
S3、根据损失函数的负梯度生成基学习器。本申请中,基学习器为一棵回归树,回归树是通过MSE作为节点分类准点进行叶子节点分裂的。
S4、计算F(x):
Fn_round(x)=Fn_round-1(x)+αn_round*fn_round(x)
其中,Fn_round-1(x)为前n_round-1棵树得到结果,fn_round(x)代表第n_round棵树,αn_round代表第n_round棵树对应的学习率。αn_round是通过查询学习率衰减表获得,一般初始化为0.5,根据本申请的步骤逐步衰减。学习率衰减表如表2所示:
表2
其中,学习率的衰减过程根据上表所示逐步完成,上表所示的学习率是根据日常工作算法经验所得,也可根据不同任务进行修正。
S5、计算验证集损失值,使用上述过程中经过一轮训练后的梯度提升算法模型对验证集进行预测,并计算经过一轮训练后的梯度提升算法模型在验证集的损失值。
S6、验证集损失值是否下降,此处验证集损失值是否下降是与之前训练过程中得到最小验证集损失值进行比较。如果本轮训练得到的验证集损失值相比较之前训练过程中得到的最小验证集损失值减少了,那么返回S2进行下一轮训练,如果没有,则执行S7。
S7、N_step+1。其中,N_step为计数器,表示验证集损失值相比较之前训练过程中得到的最小验证集损失值未减少的轮数。若验证集损失值相比较之前训练过程中得到的最小验证集损失值减少了,那么N_step的值归0,否则N_step的值加1。
S8、判断N_step的值是否大于N_step_th。N_step_th为预设值,一般为10~50之间的整数,也可根据实际情况自行设置。如果N_step的值大于N_step_th的值则执行S9,否则返回S2进行下一轮训练。
S9、判断学习率衰减是否完成,主要依据上述学习率衰减表,判断是否已经将全部的学习率运用到梯度提升算法模型中进行训练。若是,则将执行步骤S11。若不是,则执行步骤S10。
S10、按上述学习率衰减表中的下一个学习率,并跳转到步骤S2进行新一轮训练。
S11、根据上述学习过程中得到最小验证集损失值的一轮梯度提升算法模型的训练参数以及学习率作为整体模型结果进行保存,得到训练好的模型。
如表3所示,本发明在不降低性能的前提下,可以显著缩短训练时间,并且省去了使用网格搜索寻找最佳学习率的步骤,大大节省了模型训练的时间消耗。
模型评估指标 | 训练时间(s) | |
逻辑回归 | 0.784552 | 1934.35 |
决策树 | 0.789642 | 1223.45 |
GBDT(一种梯度提升算法模型) | 0.827351 | 3932.56 |
本申请实施例梯度提升算法模型 | 0.828654 | 2194.21 |
表3
本实施例中梯度提升算法模型用到了GBDT(gradient boosting decision tree,一种基于迭代所构造的决策树算法)算法模型作为基本模型,上述控制学习率的方法同样可以扩展到XGBoost以及LightGBM(light gradient boosting machine)算法模型中。
在一种实现方式中,根据上述算法得到的终端更换概率,当终端更换概率达到预设值时,则认为用户未来一段时间内会更换终端。当终端更换概率没有达到预设值时,则认为用户未来一段时间内不会更换终端。
示例性的,上述预设值可以为0.6,即当通过上述算法得到的终端更换概率超过60%时,认为用户未来一段时间内会更换终端。
本实施例提供的基于梯度提升算法的终端更换概率预测方法,通过在梯度提升算法模型中,将学习率随验证集损失值的减小而减少的技术方案,大幅提高了梯度提升算法模型的训练效率,与传统方案相比,在不降低性能的前提下,能够显著缩短训练时间,在预测用户未来一段时间内终端更换概率中,具有显著优势。
实施例二:
本申请实施例可以根据上述方法示例对基于梯度提升算法的终端更换概率预测装置进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本申请实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
进而本申请实施例提供一种基于梯度提升算法的终端更换概率预测方法装置,如图3所示包括:获取单元301、计算单元302、生成单元303。
获取单元301,用于从运营商系统中获取多个用户一段时间内相关数据,根据相关数据生成样本集。样本集中包括:用户特征数据和预测标签。
在一种实现方式中,用户特征数据,具体包括:前m个月内多个用户的用户个人信息、用户每月消费详情、用户每月套餐使用详情、用户终端相关信息、用户终端更换详情。预测标签,具体包括:后n个月内多个用户是否更换终端。
示例性的,多个用户一段时间内相关数据,可以包括:用户年龄、用户性别、用户月均消费、用户月消费最大值、用户月消费最小值、用户月消费中位数、用户月均通话时长、用户月通话时长最大值、用户月通话时长最小值、用户月通话时长中位数、用户月均流量、用户月流量最大值、用户月流量最小值、用户月流量中位数、统计时段内用户使用终端价格的均值、统计时段内用户使用终端价格的最大值、统计时段内用户使用终端价格的最小值、统计时段内用户使用终端价格的中位数、统计时段内用户更换终端的次数、第一终端类型、第二终端类型、最近一次终端价格区间、最近一次终端品牌。第一终端类型,为用户最近一次使用终端的网络制式。第二终端类型,为用户最近一次使用终端的产品类型。
在一种实现方式中,将样本集中的用户样本按照7:2:1的比例分为训练集、验证集和测试集。也可以根据不同任务自行决策,但训练集比例一般不低于60%。将样本集中的多个用户中x1个用户样本作为训练集,多个用户中x2个用户样本作为验证集。
计算单元302,用于初始化梯度提升算法模型和学习率。利用训练集对梯度提升算法模型进行训练。其中,每进行一轮训练后,生成验证集损失值,并根据验证集损失值,调节下一轮训练中梯度提升算法模型的学习率。
其中,验证集损失值为利用训练好的梯度提升算法模型进行预测生成预测结果,然后利用验证集对预测结果进行验证生成的。梯度提升算法模型的学习率随验证集损失值的降低而降低。梯度提升算法模型初始化函数为:
其中,m为训练样本数量,y(i)为预测标签值。
生成单元303,用户在计算单元302对梯度提升算法模型训练结束后,根据训练好的梯度提升算法模型生成第二模型。
在一种实现方式中,本发明实施例中可以利用最小验证集损失值的一轮训练中的参数以及学习率生成第二模型。
利用第二模型进行预测,生成用户未来一段时间内终端更换概率。
在一种实现方式中,根据上述算法得到的终端更换概率,当终端更换概率达到预设值时,则认为用户未来一段时间内会更换终端。当终端更换概率没有达到预设值时,则认为用户未来一段时间内不会更换终端。
示例性的,上述预设值可以为0.6,即当通过上述算法得到的终端更换概率超过60%时,认为用户未来一段时间内会更换终端。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例中提供的基于梯度提升算法的终端更换概率预测装置中各模块所的功能以及所产生的效果可以参照上述实施例一基于梯度提升算法的终端更换概率预测方法中的对应的描述内容,在此不再赘述。
需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用集成的单元的情况下,图4示出了上述实施例中所涉及的基于梯度提升算法的终端更换概率预测装置的一种可能的结构示意图。基于梯度提升算法的终端更换概率预测装置40包括:处理模块401、通信模块402和存储模块403。处理模块401用于对基于梯度提升算法的终端更换概率预测装置40的动作进行控制管理,例如,处理模块401用于处理基于梯度提升算法的终端更换概率预测装置40执行图2中的过程S1-S11。通信模块402用于支持基于梯度提升算法的终端更换概率预测装置40与其他实体的通信。存储模块403用于存储基于梯度提升算法的终端更换概率预测装置的程序代码和数据。
其中,处理模块401可以是处理器或控制器,例如可以是中央处理器(centralprocessing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块402可以是收发器、收发电路或通信接口等。存储模块403可以是存储器。
当处理模块401为如图5所示的处理器502,通信模块402为图5的通信接口503,存储模块403为图5的存储器501时,本发明实施例所涉及的基于梯度提升算法的终端更换概率预测装置可以为如下的基于梯度提升算法的终端更换概率预测装置50。
参照图5所示,该基于梯度提升算法的终端更换概率预测装置50包括:存储器501、处理器502、通信接口503和总线504。
其中,存储器501、处理器502、通信接口503通过总线504相互连接;总线504可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry
standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器502可以是一个通用中央处理器(Central Processing
Unit,CPU),微处理器,特定应用集成电路(Application-Specific IntegratedCircuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。
存储器501可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器
(Electrically Erasable Programmable Read-only Memory,
EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器501用于存储执行本发明方案的应用程序代码,并由处理器502来控制执行。通信接口503用于接收外部设备输入的内容,处理器502用于执行存储器501中存储的应用程序代码,从而实现本发明实施例中提供的一种基于梯度提升算法的终端更换概率预测方法。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户终端线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于梯度提升算法的终端更换概率预测方法,其特征在于,包括:
从运营商系统中获取多个用户一段时间内相关数据;
根据所述相关数据,生成样本集;所述样本集具体包括:用户特征数据以及预测标签;
所述用户特征数据,具体包括:前m个月内所述多个用户的用户个人信息、用户每月消费详情、用户每月套餐使用详情、用户终端相关信息、用户终端更换详情;所述预测标签,具体包括:后n个月内所述多个用户是否更换终端;
将所述样本集中的所述多个用户中x1个用户样本作为训练集,所述多个用户中x2个用户样本作为验证集;
初始化梯度提升算法模型和学习率;
利用所述训练集对所述梯度提升算法模型进行训练;其中,每进行一轮训练后,生成验证集损失值,并根据所述验证集损失值,调节下一轮训练中所述梯度提升算法模型的学习率;其中,所述验证集损失值为利用训练好的梯度提升算法模型进行预测生成预测结果,然后利用所述验证集对所述预测结果进行验证生成的;所述梯度提升算法模型的学习率随所述验证集损失值的降低而降低;
所述梯度提升算法模型训练结束后,根据训练好的梯度提升算法模型生成第二模型;
利用所述第二模型进行预测,生成用户未来一段时间内终端更换概率。
2.根据权利要求1所述的基于梯度提升算法的终端更换概率预测方法,其特征在于,所述根据训练好的梯度提升算法模型生成第二模型,具体包括:
所述梯度提升算法模型训练结束后,利用所述验证集损失值最小值的一轮训练的学习率以及所述梯度提升算法模型的相关参数,生成第二模型。
3.根据权利要求1所述的基于梯度提升算法的终端更换概率预测方法,其特征在于,所述用户特征数据,具体包括:
用户年龄、用户性别、用户月均消费、用户月消费最大值、用户月消费最小值、用户月消费中位数、用户月均通话时长、用户月通话时长最大值、用户月通话时长最小值、用户月通话时长中位数、用户月均流量、用户月流量最大值、用户月流量最小值、用户月流量中位数、统计时段内用户使用终端价格的均值、统计时段内用户使用终端价格的最大值、统计时段内用户使用终端价格的最小值、统计时段内用户使用终端价格的中位数、统计时段内用户更换终端的次数、第一终端类型、第二终端类型、最近一次终端价格区间、最近一次终端品牌;
所述第一终端类型,为用户最近一次使用终端的网络制式;
所述第二终端类型,为用户最近一次使用终端的产品类型。
4.根据权利要求3所述的基于梯度提升算法的终端更换概率预测方法,其特征在于,所述方法还包括:
当所述用户未来一段时间内终端更换概率达到预设值时,最终结果为用户未来一段时间内会更换终端;
当所述用户未来一段时间内终端更换概率没有达到预设值时,最终结果为用户未来一段时间内不会更换终端。
5.根据权利要求4所述的基于梯度提升算法的终端更换概率预测方法,其特征在于,所述初始化梯度提升算法模型,具体包括:
所述梯度提升算法模型初始化函数为:
其中,m为训练样本数量,y(i)为预测标签值。
6.一种基于梯度提升算法的终端更换概率预测装置,其特征在于,所述装置包括获取单元、计算单元及生成单元;
所述获取单元,用于从运营商系统中获取多个用户一段时间内相关数据;根据所述相关数据,生成样本集;所述样本集具体包括:用户特征数据以及预测标签;所述用户特征数据,具体包括:前m个月内所述多个用户的用户个人信息、用户每月消费详情、用户每月套餐使用详情、用户终端相关信息、用户终端更换详情;所述预测标签,具体包括:后n个月内所述多个用户是否更换终端;将所述样本集中的所述多个用户中x1个用户样本作为训练集,所述多个用户中x2个用户样本作为验证集;
所述计算单元,用于初始化梯度提升算法模型和学习率;利用所述训练集对所述梯度提升算法模型进行训练;其中,每进行一轮训练后,生成验证集损失值,并根据所述验证集损失值,调节下一轮训练中所述梯度提升算法模型的学习率;其中,所述验证集损失值为利用训练好的梯度提升算法模型进行预测生成预测结果,然后利用所述验证集对所述预测结果进行验证生成的;所述梯度提升算法模型的学习率随所述验证集损失值的降低而降低;
所述生成单元,用户在所述计算单元对所述梯度提升算法模型训练结束后,根据训练好的梯度提升算法模型生成第二模型;利用所述第二模型进行预测,生成用户未来一段时间内终端更换概率。
7.根据权利要求6所述的基于梯度提升算法的终端更换概率预测装置,其特征在于,所述生成单元根据训练好的梯度提升算法模型生成第二模型,具体包括:
所述梯度提升算法模型训练结束后,利用所述验证集损失值最小值的一轮训练的学习率以及所述梯度提升算法模型的相关参数,生成第二模型。
8.根据权利要求6所述的基于梯度提升算法的终端更换概率预测装置,其特征在于,所述多个用户一段时间内相关数据,具体包括:
用户年龄、用户性别、用户月均消费、用户月消费最大值、用户月消费最小值、用户月消费中位数、用户月均通话时长、用户月通话时长最大值、用户月通话时长最小值、用户月通话时长中位数、用户月均流量、用户月流量最大值、用户月流量最小值、用户月流量中位数、统计时段内用户使用终端价格的均值、统计时段内用户使用终端价格的最大值、统计时段内用户使用终端价格的最小值、统计时段内用户使用终端价格的中位数、统计时段内用户更换终端的次数、第一终端类型、第二终端类型、最近一次终端价格区间、最近一次终端品牌;
所述第一终端类型,为用户最近一次使用终端的网络制式;
所述第二终端类型,为用户最近一次使用终端的产品类型。
9.根据权利要求8所述的基于梯度提升算法的终端更换概率预测装置,其特征在于,所述生成单元,还用于:
当所述用户未来一段时间内终端更换概率达到预设值时,最终结果为用户未来一段时间内会更换终端;
当所述用户未来一段时间内终端更换概率没有达到预设值时,最终结果为用户未来一段时间内不会更换终端。
10.根据权利要求9所述的基于梯度提升算法的终端更换概率预测装置,其特征在于,所述计算单元初始化梯度提升算法模型,具体包括:
所述梯度提升算法模型初始化函数为:
其中,m为训练样本数量,y(i)为标签值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910727070.XA CN110533459A (zh) | 2019-08-07 | 2019-08-07 | 一种基于梯度提升算法的终端更换概率预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910727070.XA CN110533459A (zh) | 2019-08-07 | 2019-08-07 | 一种基于梯度提升算法的终端更换概率预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110533459A true CN110533459A (zh) | 2019-12-03 |
Family
ID=68662155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910727070.XA Pending CN110533459A (zh) | 2019-08-07 | 2019-08-07 | 一种基于梯度提升算法的终端更换概率预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110533459A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199469A (zh) * | 2019-12-12 | 2020-05-26 | 北京淇瑀信息科技有限公司 | 用户还款模型生成方法、装置及电子设备 |
CN111476403A (zh) * | 2020-03-17 | 2020-07-31 | 华为技术有限公司 | 预测模型构建方法和相关装置 |
CN111612232A (zh) * | 2020-05-13 | 2020-09-01 | 云南电网有限责任公司电力科学研究院 | 基于梯度下降的配电网线路重跳概率预测优化方法和装置 |
CN116611860A (zh) * | 2022-11-30 | 2023-08-18 | 天翼数字生活科技有限公司 | 基于宽度学习来预测终端换机的方法和系统 |
-
2019
- 2019-08-07 CN CN201910727070.XA patent/CN110533459A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199469A (zh) * | 2019-12-12 | 2020-05-26 | 北京淇瑀信息科技有限公司 | 用户还款模型生成方法、装置及电子设备 |
CN111476403A (zh) * | 2020-03-17 | 2020-07-31 | 华为技术有限公司 | 预测模型构建方法和相关装置 |
CN111612232A (zh) * | 2020-05-13 | 2020-09-01 | 云南电网有限责任公司电力科学研究院 | 基于梯度下降的配电网线路重跳概率预测优化方法和装置 |
CN111612232B (zh) * | 2020-05-13 | 2023-08-18 | 云南电网有限责任公司电力科学研究院 | 基于梯度下降的配电网线路重跳概率预测优化方法和装置 |
CN116611860A (zh) * | 2022-11-30 | 2023-08-18 | 天翼数字生活科技有限公司 | 基于宽度学习来预测终端换机的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110533459A (zh) | 一种基于梯度提升算法的终端更换概率预测方法及装置 | |
US20200242483A1 (en) | Method and system of dynamic model selection for time series forecasting | |
CN108337358B (zh) | 应用清理方法、装置、存储介质及电子设备 | |
US20220180209A1 (en) | Automatic machine learning system, method, and device | |
CN109299344A (zh) | 排序模型的生成方法、搜索结果的排序方法、装置及设备 | |
CN110427560A (zh) | 一种应用于推荐系统的模型训练方法以及相关装置 | |
CN109460793A (zh) | 一种节点分类的方法、模型训练的方法及装置 | |
CN107947951A (zh) | 用户群组推荐方法、装置及存储介质和服务器 | |
CN107911491A (zh) | 信息推荐方法、装置及存储介质、服务器和移动终端 | |
CN105446988B (zh) | 预测类别的方法和装置 | |
CN107766929A (zh) | 模型分析方法及装置 | |
CN107870810B (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN109670624B (zh) | 一种预估用餐等候时间的方法及装置 | |
CN108133390A (zh) | 用于预测用户行为的方法和装置以及计算设备 | |
CN113344647B (zh) | 一种信息推荐的方法及装置 | |
US20200202430A1 (en) | Recommending shared products | |
CN110175689A (zh) | 一种概率预测的方法、模型训练的方法及装置 | |
CN111242319A (zh) | 模型预测结果的解释方法和装置 | |
CN107943571B (zh) | 后台应用管控方法、装置、存储介质及电子设备 | |
CN107728772B (zh) | 应用程序的处理方法、装置、存储介质及电子设备 | |
CN107402886B (zh) | 堆栈分析方法及相关装置 | |
CN110457387A (zh) | 一种应用于网络中用户标签确定的方法及相关装置 | |
CN107704364A (zh) | 后台应用程序管控方法、装置、存储介质及电子设备 | |
CN116737334A (zh) | 任务调度及数据集标签更新方法、装置和电子设备 | |
CN113205231B (zh) | 一种离网预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191203 |
|
RJ01 | Rejection of invention patent application after publication |