CN109493136A - 一种基于Xgboost算法的点击率预估方法及系统 - Google Patents
一种基于Xgboost算法的点击率预估方法及系统 Download PDFInfo
- Publication number
- CN109493136A CN109493136A CN201811312769.1A CN201811312769A CN109493136A CN 109493136 A CN109493136 A CN 109493136A CN 201811312769 A CN201811312769 A CN 201811312769A CN 109493136 A CN109493136 A CN 109493136A
- Authority
- CN
- China
- Prior art keywords
- advertisement
- xgboost algorithm
- click rate
- score
- rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种基于Xgboost算法的点击率预估方法,包括:从广告投放平台的日志数据中选取出预定数量的原始特征;利用各个原始特征对Xgboost算法进行模型训练,得到模型文件;获取广告投放平台的广告库中预定数量广告对应的当前特征;将各个当前特征分别和模型文件进行点击率的计算,得到对应的预估点击率数值。可见,该方法是在Xgboost算法的基础上得到对应的模型文件,该模型文件能够快速的对广告特征进行处理得到预估点击率数值。此外,该方法可移植性好即可以实现在各个平台上,相比于相关技术容错性高。本申请还提供一种基于Xgboost算法的点击率预估系统、计算机及计算机可读存储介质,均具有上述有益效果。
Description
技术领域
本申请涉及点击率预估领域,特别涉及一种基于Xgboost算法的点击率预 估方法、系统、计算机及计算机可读存储介质。
背景技术
随着网络技术的快速发展,互联网广告成为互联网企业最重要的盈利手 段之一。像Google、Facebook、百度等公司的互联网变现和收入的主要来源也 是广告。近些年,越来越多的企业和机构开始研究互联网广告平台,他们也 慢慢地将传统媒体广告(报纸、杂志、电视、广播等)投放转向互联网广告 投放。然而,互联网广告投放的随意性和泛滥性让网民深受其烦,不仅收益 不理想,而且点击率(Click-Through-Rate,CTR)也在下降。例如,南药资 源平台是以中药材价格信息、药材产地信息、中药材市场行情、种植技术等 信息服务为主并结合实体中药材交易市场的第三方网络服务平台。该平台上 每年新投放的广告越来越多,但由于广告投放策略不适当,使得点击率不能 有所提升,也导致展示这些广告带来的收益一直达不到预期效果。
事实上,这里投放策略不佳的原因主要有两点:1)页面所展示的广告与 用户感兴趣的信息相关性不大;2)广告投放的目的是将点击率高的广告投放 到好的位置来最大限度获取用户的点击,由于该平台在投放广告前没有对每 条候选广告做精确的CTR预估,只能凭借经验来摆放广告的位置,这很可能 将点击率高的广告放在不显眼的位置。那么,制定怎样的广告投放策略才能 实现广告精准投放,这需要从用户信息、页面信息、广告信息中抽取出有用 特征(如用户ip、查询请求的时间戳、广告id、广告标题、广告描述、匹配的竞价词、广告标题的切词结果、广告描述的切词结果、流量来源id等)来解决 用户相似度问题;也需要设计和实现一个能计算候选广告CTR大小的系统来 解决广告排序的问题。
为了实现广告的精准投放,相关技术为He等人提出逻辑回归模型与GBDT 模型进行组合的方法,针对Facebook的广告系统进行点击率预估研究,用户的 访问行为触发广告系统选择候选广告,从广告库中选择一部分广告来,利用 用户的身份信息以及网页信息等作为特征,首先由决策树模型进行模型训练, 得到的输出结果直接作为逻辑回归模型的输入重新进行模型训练。但是,该 方法中的GBDT模型即GBDT算法受树的深度和棵树限制,导致对广告特征的 处理速度慢。
因此,如何提高对广告特征的处理速度是本领域技术人员需要解决的技 术问题。
发明内容
本申请的目的是提供一种基于Xgboost算法的点击率预估方法、系统、计 算机及计算机可读存储介质,能够快速的对广告特征进行处理得到预估点击 率数值。
为解决上述技术问题,本申请提供一种基于Xgboost算法的点击率预估方 法,包括:
从广告投放平台的日志数据中选取出预定数量的原始特征;
利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件;
获取所述广告投放平台的广告库中预定数量广告对应的当前特征;
将各个所述当前特征分别和所述模型文件进行点击率的计算,得到对应 的预估点击率数值。
优选地,得到对应的预估点击率数值之后,还包括:
根据各个所述预估点击率数值的大小,对各个所述预估点击率数值对应 的广告进行排序;
根据所述排序确定各个所述广告在所述广告投放平台的摆放位置。
优选地,从广告投放平台的日志数据中选取出预定数量的原始特征和利 用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件之间,还包 括:
对多个所述原始特征进行组合。
优选地,得到对应的预估点击率数值之后,还包括:
获取所述预估点击率数值对应的广告的实际点击率数值;
利用所述预估点击率数值及对应的所述实际点击率数值和logloss评估算 法进行评估计算,得出评估结果。
本申请还提供一种基于Xgboost算法的点击率预估系统,包括:
原始特征选取模块,用于从广告投放平台的日志数据中选取出预定数量 的原始特征;
模型训练模块,用于利用各个所述原始特征对Xgboost算法进行模型训 练,得到模型文件;
当前特征获取模块,用于获取所述广告投放平台的广告库中预定数量广 告对应的当前特征;
点击率计算模块,用于将各个所述当前特征分别和所述模型文件进行点 击率的计算,得到对应的预估点击率数值。
优选地,该点击率预估系统还包括:
排序模块,用于根据各个所述预估点击率数值的大小,对各个所述预估 点击率数值对应的广告进行排序;
摆放位置确定模块,用于根据所述排序确定各个所述广告在所述广告投 放平台的摆放位置。
优选地,该点击率预估系统还包括:
特征组合模块,用于对多个所述原始特征进行组合。
优选地,该点击率预估系统还包括:
实际点击率数值获取模块,用于获取所述预估点击率数值对应的广告的 实际点击率数值;
评估计算模块,用于利用所述预估点击率数值及对应的所述实际点击率 数值和logloss评估算法进行评估计算,得出评估结果。
本申请还提供一种计算机,包括:
存储器和处理器;其中,所述存储器用于存储计算机程序,所述处理器 用于执行所述计算机程序时实现上述所述的基于Xgboost算法的点击率预估 方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储 有计算机程序,所述计算机程序被处理器执行时实现上述所述的基于Xgboost 算法的点击率预估方法的步骤。
本申请所提供的一种基于Xgboost算法的点击率预估方法,包括:从广告 投放平台的日志数据中选取出预定数量的原始特征;利用各个所述原始特征 对Xgboost算法进行模型训练,得到模型文件;获取所述广告投放平台的广告 库中预定数量广告对应的当前特征;将各个所述当前特征分别和所述模型文 件进行点击率的计算,得到对应的预估点击率数值。
该方法利用选取出的原始特征对Xgboost算法进行模型训练得到模型文 件,再利用该模型文件和获取的预定数量广告对应的当前特征进行点击率的 计算,得到对应的预估点击率数值。可见,该方法是在Xgboost算法的基础上 得到对应的模型文件,该模型文件能够快速的对广告特征进行处理得到预估 点击率数值。此外,该方法的可移植性好即可以实现在各个平台上,相比于 相关技术容错性也高。本申请还提供一种基于Xgboost算法的点击率预估系 统、计算机及计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种基于Xgboost算法的点击率预估方法的 流程图;
图2为本申请实施例所提供的一种基于Xgboost算法的点击率预估系统的 结构框图。
具体实施方式
本申请的核心是提供一种基于Xgboost算法的点击率预估方法,能够快速 的对广告特征进行处理得到预估点击率数值。本申请的另一核心是提供一种 基于Xgboost算法的点击率预估系统、计算机及计算机可读存储介质。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申 请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于 本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获 得的所有其他实施例,都属于本申请保护的范围。
随着网络技术的快速发展,为了使投放的广告达到预期效果,必须根据 广告预估的点击率制定适当的广告投放策略。而相关技术中对广告点击率的 预估方法是利用逻辑回归模型和梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型组合的方式进行广告点击率的预估,但是梯度提升决策树 模型对广告特征的处理速度慢,尤其对于高维特征的处理是GBDT模型性能的 瓶颈,当GBDT的One-Hot编码特征大于10万维时,就必须做分布式的训练 才能避免内存消耗过大。所以,GBDT通常配合少量的CTR特征来表达,这样虽然具有一定的泛化能力,但也会有信息损失,对于部分资源不能有效的表 达。本申请实施例是在Xgboost算法的基础上得到对应的模型文件,该模型文 件能够快速的对广告特征进行处理得到预估点击率数值。具体请参考图1,图 1为本申请实施例所提供的一种基于Xgboost算法的点击率预估方法的流程图, 该点击率预估方法具体包括:
S101、从广告投放平台的日志数据中选取出预定数量的原始特征;
本申请实施例先是从广告投放平台的日志数据中选取出预定数量的原始 特征,对于广告投放平台的类型在此不作具体限定,应由本领域技术人员根 据实际情况作出相应的设定,可以是药品类广告投放平台,也可以为食品类 广告投放平台。在此对日志数据的存储位置及数据内容均不作具体限定,应 由本领域技术人员根据实际情况作出相应的设定。其中,日志数据通常存储 于分布式文件系统(Hadoop Distributed File System,HDFS),数据内容包括 广告信息、用户信息和页面信息等。选取出预定数量的原始特征即预先设定 原始特征选取出的数量是不作具体限定的,而且对于原始特征的内容和数据 格式在此也均不作具体限定。进一步地,通常还可以对多个原始特征进行组 合,并将组合后的特征作为新的原始特征,这其实也是一个不断选取原始特 征的过程。
S102、利用各个原始特征对Xgboost算法进行模型训练,得到模型文件;
本申请实施例在选取出预定数量的原始特征后,利用各个原始特征对 Xgboost算法进行模型训练,得到模型文件。通常在YARN集群上部署分布式 Xgboost算法,将选取的原始特征用来做训练模型即将原始特征输入Xgboost 模型,输出模型文件。其中,将原始特征输入Xgboost模型先确定相应的权值, 模型文件就是权值已经确定了的Xgboost模型。
上述过程涉及到Xgboost算法的实现过程,下面对Xgboost算法的实现过程 进行详细的解释。Boosting算法是属于串行的集成方法,其预测函数为多个基 分类器的集成,其学习过程也是先学习前(t-1)个基分类器,再学习第t个基分 类器。Xgboost算法是在Boosting算法基础上的改进,Xgboost算法中最主要的 基学习器为CART(分类与回归树),因此其预测函数为:
其中K表示有K个决策树,fk表示第k颗树,表示样本xi的预测结果, F={f(x)=wq(x)}(q:Rm→T,w∈RT)表示决策树空间,其中m代表数据集的维数, T为叶子节点数量,q代表树的结构,w代表叶子节点的分数,Rm为样本实例, q(x)表示将输入样本x映射到树的叶子节点,其对应叶子节点的标号为wq(x)。 因此,正则化的目标函数可以写成:
其中为样本xi的训练误差,Ω(fk)表示 第k棵树的正则项。
其中γ和λ为惩罚力度,||w||2为权重L2正则化, Τ为叶子节点数量。
假设前t-1步迭代优化得到的模型为在第t步中,待求参数为ft(xi), 则第t步的目标函数为:
其中为常数项。
将上式进行二阶泰勒展开可以得到:
其中,gi和hi分别是一阶导数和 二阶导数。
去掉与待求参数无关的常数项,从而得到新的优化目标为:
将上式变形,将关于样本迭代转换为关于树的叶子节点迭代:
其中,wj是模型中叶子节点的结果值。
这样,对于给定的树结构,可以直接计算得到叶子节点的标号:
其中Ij为每个叶子节点的样本个数。
以及相对应的最优目标函数值:
其中,代表叶子节点内所有样本的目标函数的一阶导数的累加值, 代表叶子节点内所有样本的目标函数的二阶导数的累加值。
因为对损失函数做了二阶泰勒展开,并在目标函数中加入了正则项,整 体求最优解,用以权衡目标函数和模型的复杂程度,起到了防止过拟合的作 用。但是,由于树的结构是未知的,而且也不可能去遍历所有的树结构。因 此,采用贪婪算法来分裂节点,从根节点开始,遍历所有属性,遍历属性的 可能取值,记分到左子树的样本集为IL,分到右子树的样本集为IR,则分裂 该节点导致的损失减少值为:
其中,λ用来降低分支收益灵敏度,γ为加入新节点后引起复杂度的变化,
这里需要找到一个属性以及其对应的大小,使得上式取值最大。因为树 结构未知,只能采用贪心算法,从根节点出发,每次选择一个属性及其对应 的值,使得损失函数减少最多。在此对贪心算法的类型不作具体限定,应由 本领域技术人员根据实际情况作出相应的设定,通常采用用于分割搜索的精 确贪心算法。
下面对用于分割搜索的精确贪心算法的实现过程进行介绍:
输入:I,当前节点的样本集
输入:Ik={i∈I|xik≠missing},其中xik为第i个样本第k列的特征值
输入:d,特征维度
gain←0
G←∑i∈Igi,H←∑i∈Ihi
对k=1,…,m计算:
GL←0,HL←0
对在有序Ik(按xjk升序排列)中的j,计算:
GL←GL+gj,HL←HL+hj,GR←G-GL,HR←H-HL
其中,GR为右子节点的一阶导数和,HR为右子节点的二阶导数和,GL为 右子节点的一阶导数和,HL为右子节点的二阶导数和。
结束
结束
输出:最大的score为分割和默认的方向。
S103、获取广告投放平台的广告库中预定数量广告对应的当前特征;
本申请实施例在得到模型文件后,获取广告投放平台的广告库中预定数 量广告对应的当前特征。在此对广告库中广告的数量及上述预订数量均不作 具体限定,应由本领域技术人员根据实际情况作出相应的设定。根据上文可 知,对原始特征的内容不作具体限定,相应的对当前特征的内容也不作具体 限定。当前特征的内容通常包括用户当前页面的信息、用户自身属性信息、 候选广告的信息及广告位置信息。其中,广告位置信息是现有技术容易忽略 的,而广告位置信息的加入能提高预估点击率数值的准确性。
S104、将各个当前特征分别和模型文件进行点击率的计算,得到对应的 预估点击率数值。
本申请实施例在获取广告投放平台的广告库中预定数量广告对应的当前 特征后,将各个当前特征分别和模型文件进行点击率的计算,得到对应的预 估点击率数值。根据上文可知,对原始特征的数据格式不作具体限定,相应 的对当前特征的数据格式也不作具体限定,通常原始特征的数据格式要与当 前特征保持一致,不然计算的预估点击率(Click-Through-Rate,CTR)数值 将发生变化,不能精确的定位和投放广告。在此对计算预估点击率数值的计 算过程不作具体限定,通常是将各个当前特征分别输入模型文件中,输出对 应的预估点击率数值。
本申请实施例利用选取出的原始特征对Xgboost算法进行模型训练得到模 型文件,再利用该模型文件和获取的预定数量广告对应的当前特征进行点击 率的计算,得到对应的预估点击率数值。可见,该方法是在Xgboost算法的基 础上得到对应的模型文件,该模型文件能够快速的对广告特征进行处理得到 预估点击率数值。而且,本文所提到的Xgboost算法中集成了一种稀疏感知的 分割搜寻算法来自动利用特征的稀疏性做并行化树的学习,因此它能很有效 地处理广告数据的高维稀疏特征。
从Xgboost算法的设计理念出发,本申请实施例还有如下有益效果:
(1)速度快。让一个程序在必要时占领一台机器,并且在迭代的时候一 直跑到底,防止重新分配资源的开销。机器内部采用单机多线程方式来并行 加速,机器之间的通信基于Rabit实现的All Reduce的同步接口。
(2)可移植性好。基于大数据背景下大多数机器学习算法都是采用分布 式计算,在每个子集上面算出局部的统计量,然后整合出全局的统计量,再 分配给每个计算节点进行下一轮的迭代。根据算法本身的需求,抽象出合理 的接口,如All Reduce,并通过通用的Rabit库让平台实现接口的需求,最终使 得各种比较有效的分布式机器学习抽象地实现在各个平台上。
(3)容错性高。Rabit版本的All Reduce有一个很好的性质,支持容错, 而传统的MPI不支持。由于All Reduce中,每一个节点最后拿到相同的结果, 这意味着可以让一部分节点记住结果,当有节点发生故障需要重启的时候, 可以直接向没有发生故障的节点索要结果。
基于上述实施例,本实施例中得到对应的预估点击率数值之后,通常还 包括:根据各个预估点击率数值的大小,对各个预估点击率数值对应的广告 进行排序;根据排序确定各个广告在广告投放平台的摆放位置。在此对排序 的输出形式不作具体限定,应由本领域技术人员根据实际情况作出相应的设 定,例如可以是以排序表的形式输出。只要根据各个预估点击率数值的大小, 完成对各个预估点击率数值对应的广告的排序即可,至于是根据各个预估点 击率数值从小到大的顺序对相应的广告进行排序,还是根据各个预估点击率 数值从大到小的顺序对相应的广告进行排序,在此均不作具体限定。在对各 个广告排好顺序后,根据排序确定各个广告在广告投放平台的摆放位置,也 就是说排序和广告投放平台的摆放位置之间存在着映射关系,具体为何种映 射关系在此也不作具体限定,应由本领域技术人员根据实际情况作出相应的 设定。通常在根据各个预估点击率数值从大到小的顺序对相应的广告进行排 序后,将靠前的广告摆放在广告投放平台的中间位置,将靠后的广告摆放在 广告投放平台的非中间位置。
基于上述实施例,本实施例中得到对应的预估点击率数值之后,通常还 包括:获取预估点击率数值对应的广告的实际点击率数值;利用预估点击率 数值及对应的实际点击率数值和logloss评估算法进行评估计算,得出评估结 果。本实施例采用logloss评估算法评估实验结果的准确性,而相关技术中采 用AUC评估算法评估实验结果的准确性,仅侧重于相对排序。如果整体广告 点击率预估概率提高了,AUC评估算法是无法察觉的,而本实施例的logloss 评估算法却可以察觉到。
下面对本申请实施例提供的一种基于Xgboost算法的点击率预估系统、计 算机及计算机可读存储介质进行介绍,下文描述的基于Xgboost算法的点击率 预估系统、计算机及计算机可读存储介质与上文描述的基于Xgboost算法的点 击率预估方法可相互对应参照。
请参考图2,图2为本申请实施例所提供的一种基于Xgboost算法的点击率 预估系统的结构框图;该基于Xgboost算法的点击率预估系统包括:
原始特征选取模块201,用于从广告投放平台的日志数据中选取出预定数 量的原始特征;
模型训练模块202,用于利用各个原始特征对Xgboost算法进行模型训练, 得到模型文件;
当前特征获取模块203,用于获取广告投放平台的广告库中预定数量广告 对应的当前特征;
点击率计算模块204,用于将各个当前特征分别和模型文件进行点击率的 计算,得到对应的预估点击率数值。
基于上述实施例,该基于Xgboost算法的广告点击率预估系统,通常还包 括:
排序模块,用于根据各个预估点击率数值的大小,对各个预估点击率数 值对应的广告进行排序;
摆放位置确定模块,用于根据排序确定各个广告在广告投放平台的摆放 位置。
基于上述实施例,该基于Xgboost算法的广告点击率预估系统,通常还包 括:
特征组合模块,用于对多个原始特征进行组合。
基于上述实施例,该基于Xgboost算法的广告点击率预估系统,通常还包 括:
实际点击率数值获取模块,用于获取预估点击率数值对应的广告的实际 点击率数值;
评估计算模块,用于利用预估点击率数值及对应的实际点击率数值和 logloss评估算法进行评估计算,得出评估结果。
本申请还提供一种计算机,包括:存储器和处理器;其中,存储器用于 存储计算机程序,处理器用于执行计算机程序时实现上述任意实施例的基于 Xgboost算法的点击率预估方法的步骤。
本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有计 算机程序,计算机程序被处理器执行时实现上述任意实施例的基于Xgboost 算法的点击率预估方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、 磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是 与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对 于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的 比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现, 为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性 地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行, 取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定 的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本 发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、 处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存 储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编 程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任 意其它形式的存储介质中。
以上对本申请所提供的一种基于Xgboost算法的点击率预估方法、基于 Xgboost算法的点击率预估系统、计算机以及计算机可读存储介质进行了详细 介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上 实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对 于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以 对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保 护范围内。
Claims (10)
1.一种基于Xgboost算法的点击率预估方法,其特征在于,包括:
从广告投放平台的日志数据中选取出预定数量的原始特征;
利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件;
获取所述广告投放平台的广告库中预定数量广告对应的当前特征;
将各个所述当前特征分别和所述模型文件进行点击率的计算,得到对应的预估点击率数值。
2.根据权利要求1所述的广告点击率预估方法,其特征在于,得到对应的预估点击率数值之后,还包括:
根据各个所述预估点击率数值的大小,对各个所述预估点击率数值对应的广告进行排序;
根据所述排序确定各个所述广告在所述广告投放平台的摆放位置。
3.根据权利要求1所述的广告点击率预估方法,其特征在于,从广告投放平台的日志数据中选取出预定数量的原始特征和利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件之间,还包括:
对多个所述原始特征进行组合。
4.根据权利要求1所述的广告点击率预估方法,其特征在于,得到对应的预估点击率数值之后,还包括:
获取所述预估点击率数值对应的广告的实际点击率数值;
利用所述预估点击率数值及对应的所述实际点击率数值和logloss评估算法进行评估计算,得出评估结果。
5.一种基于Xgboost算法的点击率预估系统,其特征在于,包括:
原始特征选取模块,用于从广告投放平台的日志数据中选取出预定数量的原始特征;
模型训练模块,用于利用各个所述原始特征对Xgboost算法进行模型训练,得到模型文件;
当前特征获取模块,用于获取所述广告投放平台的广告库中预定数量广告对应的当前特征;
点击率计算模块,用于将各个所述当前特征分别和所述模型文件进行点击率的计算,得到对应的预估点击率数值。
6.根据权利要求5所述的基于Xgboost算法的广告点击率预估系统,其特征在于,还包括:
排序模块,用于根据各个所述预估点击率数值的大小,对各个所述预估点击率数值对应的广告进行排序;
摆放位置确定模块,用于根据所述排序确定各个所述广告在所述广告投放平台的摆放位置。
7.根据权利要求5所述的基于Xgboost算法的广告点击率预估系统,其特征在于,还包括:
特征组合模块,用于对多个所述原始特征进行组合。
8.根据权利要求5所述的基于Xgboost算法的广告点击率预估系统,其特征在于,还包括:
实际点击率数值获取模块,用于获取所述预估点击率数值对应的广告的实际点击率数值;
评估计算模块,用于利用所述预估点击率数值及对应的所述实际点击率数值和logloss评估算法进行评估计算,得出评估结果。
9.一种计算机,其特征在于,包括:
存储器和处理器;其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现如权利要求1至4任一项所述的基于Xgboost算法的点击率预估方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于Xgboost算法的点击率预估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811312769.1A CN109493136A (zh) | 2018-11-06 | 2018-11-06 | 一种基于Xgboost算法的点击率预估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811312769.1A CN109493136A (zh) | 2018-11-06 | 2018-11-06 | 一种基于Xgboost算法的点击率预估方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109493136A true CN109493136A (zh) | 2019-03-19 |
Family
ID=65693900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811312769.1A Pending CN109493136A (zh) | 2018-11-06 | 2018-11-06 | 一种基于Xgboost算法的点击率预估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109493136A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401980A (zh) * | 2020-02-19 | 2020-07-10 | 北京值得买科技股份有限公司 | 一种提升样本排序多样性方法以及装置 |
CN111417124A (zh) * | 2019-06-28 | 2020-07-14 | 西南交通大学 | 在认知无线网络环境下频谱感知的方法 |
CN111768251A (zh) * | 2020-09-03 | 2020-10-13 | 北京悠易网际科技发展有限公司 | 一种基于流量信息评估的广告投放方法、装置及电子设备 |
CN111967901A (zh) * | 2020-07-31 | 2020-11-20 | 深圳市彬讯科技有限公司 | 广告商家排序方法、装置、计算机设备及存储介质 |
CN111967899A (zh) * | 2020-07-31 | 2020-11-20 | 深圳市彬讯科技有限公司 | 商家线上广告投放方法、装置、计算机设备及存储介质 |
CN112055038A (zh) * | 2019-06-06 | 2020-12-08 | 阿里巴巴集团控股有限公司 | 生成点击率预估模型的方法及预测点击概率的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217648A1 (en) * | 2009-02-20 | 2010-08-26 | Yahool. Inc., a Delaware Corporation | Method and system for quantifying user interactions with web advertisements |
CN102592235A (zh) * | 2011-12-28 | 2012-07-18 | 北京品友互动信息技术有限公司 | 一种互联网广告投放系统 |
CN105631711A (zh) * | 2015-12-30 | 2016-06-01 | 合一网络技术(北京)有限公司 | 一种广告投放方法及装置 |
CN106296286A (zh) * | 2016-08-09 | 2017-01-04 | 北京奇虎科技有限公司 | 广告点击率的预估方法和预估装置 |
CN108090788A (zh) * | 2017-12-22 | 2018-05-29 | 苏州大学 | 基于时间信息集成模型的广告转化率预估方法 |
CN108647373A (zh) * | 2018-03-21 | 2018-10-12 | 浙江大学 | 一种基于xgboost模型的工业过程软测量方法 |
-
2018
- 2018-11-06 CN CN201811312769.1A patent/CN109493136A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100217648A1 (en) * | 2009-02-20 | 2010-08-26 | Yahool. Inc., a Delaware Corporation | Method and system for quantifying user interactions with web advertisements |
CN102592235A (zh) * | 2011-12-28 | 2012-07-18 | 北京品友互动信息技术有限公司 | 一种互联网广告投放系统 |
CN105631711A (zh) * | 2015-12-30 | 2016-06-01 | 合一网络技术(北京)有限公司 | 一种广告投放方法及装置 |
CN106296286A (zh) * | 2016-08-09 | 2017-01-04 | 北京奇虎科技有限公司 | 广告点击率的预估方法和预估装置 |
CN108090788A (zh) * | 2017-12-22 | 2018-05-29 | 苏州大学 | 基于时间信息集成模型的广告转化率预估方法 |
CN108647373A (zh) * | 2018-03-21 | 2018-10-12 | 浙江大学 | 一种基于xgboost模型的工业过程软测量方法 |
Non-Patent Citations (3)
Title |
---|
PHUSFUNS: "xgboost算法", 《HTTPS://WWW.JIANSHU.COM/P/37963D5EB19F》 * |
TIANQI CHEN.ETL: ""XGBoost: A Scalable Tree Boosting System"", 《HTTPS://DOI.ORG/10.1145/2939672.2939785》 * |
且行且安~: "机器学习算法(15)之Xgboost算法", 《HTTPS://BLOG.CSDN.NET/QQ_20412595/ARTICLE/DETAILS/82621744》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112055038A (zh) * | 2019-06-06 | 2020-12-08 | 阿里巴巴集团控股有限公司 | 生成点击率预估模型的方法及预测点击概率的方法 |
CN111417124A (zh) * | 2019-06-28 | 2020-07-14 | 西南交通大学 | 在认知无线网络环境下频谱感知的方法 |
CN111401980A (zh) * | 2020-02-19 | 2020-07-10 | 北京值得买科技股份有限公司 | 一种提升样本排序多样性方法以及装置 |
CN111967901A (zh) * | 2020-07-31 | 2020-11-20 | 深圳市彬讯科技有限公司 | 广告商家排序方法、装置、计算机设备及存储介质 |
CN111967899A (zh) * | 2020-07-31 | 2020-11-20 | 深圳市彬讯科技有限公司 | 商家线上广告投放方法、装置、计算机设备及存储介质 |
CN111967899B (zh) * | 2020-07-31 | 2023-08-15 | 深圳市彬讯科技有限公司 | 商家线上广告投放方法、装置、计算机设备及存储介质 |
CN111768251A (zh) * | 2020-09-03 | 2020-10-13 | 北京悠易网际科技发展有限公司 | 一种基于流量信息评估的广告投放方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493136A (zh) | 一种基于Xgboost算法的点击率预估方法及系统 | |
US11494457B1 (en) | Selecting a template for a content item | |
CN105765573B (zh) | 网站通信量优化方面的改进 | |
US10558852B2 (en) | Predictive analysis of target behaviors utilizing RNN-based user embeddings | |
TWI648642B (zh) | Data search processing method and system | |
US20130110829A1 (en) | Method and Apparatus of Ranking Search Results, and Search Method and Apparatus | |
US20150269609A1 (en) | Clickstream Purchase Prediction Using Hidden Markov Models | |
US20230267176A1 (en) | Granular Cluster Generation for Real-Time Processing | |
US20140067535A1 (en) | Concept-level User Intent Profile Extraction and Applications | |
CN105893406A (zh) | 群体用户画像方法及系统 | |
US20140258001A1 (en) | Systems and Methods for Determining Net-New Keywords in Expanding Live Advertising Campaigns in Targeted Advertising Systems | |
CN105874753A (zh) | 用于社交数据网络用户行为细分的系统和方法 | |
WO2014018781A1 (en) | Data refining engine for high performance analysis system and method | |
US20110187717A1 (en) | Producing Optimization Graphs in Online Advertising Systems | |
US20110131093A1 (en) | System and method for optimizing selection of online advertisements | |
US10304081B1 (en) | Yielding content recommendations based on serving by probabilistic grade proportions | |
US20110251889A1 (en) | Inventory clustering | |
CN109783726A (zh) | 一种房地产大数据计算处理方法及其系统 | |
US20110179013A1 (en) | Search Log Online Analytic Processing | |
US10289624B2 (en) | Topic and term search analytics | |
KR20130033693A (ko) | 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체 | |
CN108090041A (zh) | 一种广告创意的生成方法及装置 | |
CN103150661B (zh) | 预测广告客户关键词性能指示值 | |
CN106570173A (zh) | 一种基于Spark的高维稀疏文本数据聚类方法 | |
US10977684B2 (en) | Generating and distributing digital surveys based on predicting survey responses to digital survey questions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190319 |
|
RJ01 | Rejection of invention patent application after publication |