CN104778608A - 一种n+广告投放优化方法 - Google Patents

一种n+广告投放优化方法 Download PDF

Info

Publication number
CN104778608A
CN104778608A CN201510174030.9A CN201510174030A CN104778608A CN 104778608 A CN104778608 A CN 104778608A CN 201510174030 A CN201510174030 A CN 201510174030A CN 104778608 A CN104778608 A CN 104778608A
Authority
CN
China
Prior art keywords
data
cookie
trainoriginal
tree
advertisement putting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510174030.9A
Other languages
English (en)
Inventor
雷龙艳
章岑
朱凯泉
房晓宇
江建博
潘柏宇
卢述奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unification Infotech (beijing) Co Ltd
Original Assignee
Unification Infotech (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unification Infotech (beijing) Co Ltd filed Critical Unification Infotech (beijing) Co Ltd
Priority to CN201510174030.9A priority Critical patent/CN104778608A/zh
Publication of CN104778608A publication Critical patent/CN104778608A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供一种N+广告投放优化方法,该方法将对目标客户浏览视频的标记值(即cookie)在未来一段时间(例如一周)内出现N次的概率做一个预测并得到预测值,设定一个概率阈值threhold,该预测值大于等于该阈值才对该cookie进行广告投放,小于则不投放。业内对该广告投放也称作播种,不投放则称作不播种。该方法能有效降低资源浪费,并能保证收益。

Description

一种N+广告投放优化方法
技术领域
本发明涉及一种N+广告投放优化方法。
背景技术
在广告商进行广告投放的活动中,有一类N+广告投放需求,即广告主要求投放的目标客户在一段时间内(例如为一周)能够有效地接触该广告至少是N次(通常为3次,由广告主根据自己的需求确定),如果在规定时间内某已经投放了该广告的目标客户达不到该次数要求,则视为一次无效的广告投放,如果达到该次数要求则视为一次有效的投放。除了对接触广告次数有要求外,对是否满足这样的目标客户的量也有一定要求。
因此,对媒体广告平台而言,针对该类N+广告投放需求,如何确保对目标客户投放出去的广告的正确率和召回率成为关键问题,高正确率就能确保资源少浪费,高召回率则是量的保证,确保收益,在量并不充足的情况下应优先保证高召回率。
发明内容
为解决现有技术中存在的上述技术问题,本发明提供一种N+广告投放优化方法,该方法将对目标客户浏览视频的标记值(即cookie)在未来一段时间(例如一周)内出现N次的概率做一个预测并得到预测值,设定一个概率阈值threhold,该预测值大于等于该阈值才对该cookie进行广告投放,小于则不投放。业内对该广告投放也称作播种,不投放则称作不播种。该方法能有效降低资源浪费,并能保证收益。
本发明的N+广告投放优化方法的基本原理是:在线下,首先对目标客户浏览视频的标记值(即cookie)的特征数据进行选择,选择对用户是否再回来具有表征作用而且线上能够轻易获取的特征数据,然后使用CART分类树来建立cookie是否再回来预测模型,通过该模型预测某cookie用户一周内是否还会再回来的概率;线上运行时,设定N值,设定概率阈值,通过线上获得该cookie的相应特征数据预测其再回来的概率,计算该概率的N次方结果,该结果大于等于设定概率阈值时投放广告,否则不投放。
附图说明
本发明将参照附图来进一步详细说明,其中:
图1是本发明方法流程图;
图2是本发明方法线上、线下实现的示意图。
具体实施方式
虽然将参照含有本发明的较佳实施例的附图充分描述本发明,但在此描述之前应了解本领域的普通技术人员可修改本文中所描述的发明,同时获得本发明的技术效果。因此,须了解以上的描述对本领域的普通技术人员而言为一广泛的揭示,且其内容不在于限制本发明所描述的示例性实施例。
本发明的N+广告投放优化方法中使用CART(Classification and RegressionTrees)分类树建立预测模型。首先,对本发明使用的CART分类树等背景做一个介绍。CART是决策树的一种,CART算法既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),分类树是预测结果是离散类型值的树,回归树是预测结果为连续型值的树。决策树算法都属于有监督一类的机器学习算法,所以模型的建立需要经过有标签数据的训练过程,模型树建立过程中,难免会出现数据过度拟合的情况,因此树剪枝操作往往是必须的,剪枝包括预剪枝和后剪枝,预剪枝是在建树过程中进行的,后剪枝是建树完成后进行的。CART分类树的分支节点存储分割特征序号spInd和分割值spVal,叶子节点存储组合值包括:是否再来label,再来概率posProb,不来概率negProb,再来概率大于不来概率时,是否再来label为1,否则为0。再来概率由落在该叶子节点的分类标签值为1的数量除以该叶子中所有训练数据条数得出。
训练、剪枝和测试数据集由cookie对应的特征属性和表示是否再来的0、1标签值组成。
CART预剪枝:CART分类树在建立过程中会进行预剪枝,分为以下三种情况:
如果在某个分支的所有数据中,某一类(标签为0或1)的数据所在比率大于等于某个阈值ratio_threshold时停止分支,作为叶子。该阈值作为参数传入,默认为0.85;
如果在某个分支的所有数据条目数小于等于某个阈值num_threshold时停止分支,作为叶子。该阈值作为参数传入,默认为50;
如果在某个分支属性分割后的基尼不纯度Gini相较于分割前的基尼不纯度并未降低到一定阈值gini_threshold时,停止分支,作为叶子。该阈值作为参数传入,默认为0.01。
CART后剪枝:CART后剪枝是建立好模型分类树后在新的剪枝数据集上进行的,在以下两种情况中会进行后剪枝:
如果某分支的左(或右)子树不是叶子,而没有数据分到该左(或右)子树,那么剪枝,该左(或右)子树变为叶子。叶子存储的值由兄弟分支的相关计算结果得出,把兄弟分支暂当作叶子计算其label,如果兄弟分支的label为1,则该叶子存储的值为[0,0.001,0.999],反之,存储[1,0.999,0.001];
如果某分支的左右子树都是叶子,而计算出该分支在不分裂时的错误率要小于分裂后的错误率,那么剪枝,该分支变为叶子。计算所有落在该分支的数据中label为1的记录所占比,得出相应的值作为该叶子的存储值。
下面,以一周为例说明本发明的N+广告投放优化方法,并不以此限定。
本发明的N+广告投放优化方法包括:
第一步,抽取目标客户浏览视频的标记值(即cookie)特征数据,生成CART分类树的训练、剪枝、测试数据。
视频平台数据系统中通常有两个日志表,access表和vvlog表,分别用来记录视频广告的播放日志和vv日志,这两个日志表里有大量有关视频、广告、用户的相关属性信息,从这些属性里选择一部分属性信息来作为CART分类树的训练,剪枝和测试数据。选择的属性信息必须在线上也能轻易并快速的获取,以便做预测。
生成CART分类树的训练、剪枝、测试数据的步骤如下:
步骤1.1,以2014.08.04的数据为例,从access日志表中抽取2014.08.04这一天的cookie数据,记为:accessCookieAttrs_804,该数据集包含以下属性:cookiesessionId,视频分类,是否为长视频,视频时长,时间戳,使用cookiesessionId而不使用cookie是为了与vvlog中的数据一一映射。
步骤1.2,从vvlog日志表中抽取2014.08.04这一天的cookie数据,记为:vvCookieAttrs_804,该数据集包含以下属性:cookiesessionId,是否注册,vvstep史来vv,seidcount史来session计数,sevvstep本次session计数。
步骤1.3,统计access日志表中时间跨度为一周(即2014.08.05-2014.08.11)的cookie出现次数,记为:cookieNum_805_811,该数据集包含以下属性:cookie,cookie出现次数。
步骤1.4,整合连接上述三个步骤得到的三个数据集:accessCookieAttrs_804,vvCookieAttrs_804,cookieNum_805_811(cookieNum_805_806),生成是否再来类属标签,得到新的数据集,记为:trainOriginal_804_811(trainOriginal_804_806),该数据集包含以下属性:cookie,视频分类(62类离散),是否长视频,视频时长(分段离散),是否注册,史来vv计数(分段离散),史来session计数,本次session的vv计数,是否再次访问。
其中,整合规则为:首先,accessCookieAttrs_804与vvCookieAttrs_804通过cookiesessionId值进行连接得到temp_804,包含属性:cookie(只取cookiesessionId的cookie部分),视频分类(62类离散),是否长视频,视频时长(分段离散),是否注册,史来vv计数(分段离散),史来session计数,本次session的vv计数,时间戳。其中视频时长以10分钟为一段进行分段离散,史来vv计数以10为一段进行分段离散,cookie不唯一。然后,temp_804再与cookieNum_805_811进行连接生成类标签,若temp_804中的某cookie在cookieNum_805_811中存在,则是否再来label为1,若不存在,则对该同一cookie的所有记录求时间戳最大值的记录,该记录的label为0,其余的label为1,此种情况表示:如果某cookie在8.04这一天出现多次,但在之后一周内并未出现,那么该cookie在8.04这一天最后一次出现时(时间戳最大)的label为0,其余时间出现时因为之后还会再出现所以label为1;
步骤1.5,将步骤1.4得到的数据集trainOriginal_804_811进行简单抽样得到三份新的数据集,分别为CART训练数据集trainOriginal_804_811_train,10w条记录;剪枝数据集trainOriginal_804_811_prune,5w条记录;测试数据集trainOriginal_804_811_test,5w条记录,其中,a、b、c用于标识时间,本实施例中a到c为一周的时间跨度。
第二步,建立CART分类树模型。
使用训练数据集trainOriginal_804_811_train进行建树,建树后使用剪枝数据集trainOriginal_804_811_prune对树进行后剪枝得到模型树,最后通过测试数据集trainOriginal_804_811_test进行简单的测试。经过反复调整输入参数并测试能够得到最佳分类性能。最终生成的模型树为:nplus_tree_804_811.model,输入参数值最终调整为ratio_threshold:0.94,num_threshold:200,gini_threshold:0.002
第三步,进行N+广告投放预测与算法性能的评估。
使用新一周(2014.08.12-2014.08.18)的数据进行N+广告投放预测与算法性能评估。重复步骤1.1-1.4生成新一周(2014.08.12-2014.08.18)的数据,记为:simulateCookie_812_818,属性为:cookiesessionId,视频分类(62类离散),是否长视频,视频时长(分段离散),是否注册,vvstep史来计数(分段离散),sevvstep本次session计数,seidcount史来session计数。
设定是否投放的阈值threshold,设定有效接触广告的次数为N(2≤N≤6),顺序遍历simulateCookie_812_818的数据,对每条数据应用模型预测是否投放,如果投放,则将该cookie加入hash表<cookie,cookieNum>;对每条数据,先看hash表中是否存在投放记录,如果存在投放记录,则该cookieNum++,如果不存在投放记录,则判断是否需要投放,这样得到一个投放记录结果。检查cookie对应的cookieNum是否大于等于N值,来计算的正确率和召回率,得到的结果如下表1所示:
N threshold 正确率 召回率
3 0.5 0.709 0.699
3 0.4 0.647 0.739
3 0.3 0.615 0.792
3 0.2 0.582 0.823
3 0.1 0.573 0.833
3 0.05 0.572 0.835
3 0.04 0.548 0.889
2 0.5 0.824 0.754
2 0.4 0.802 0.782
2 0.3 0.751 0.815
表1N+投放优化性能评估
从表1中可以看到固定N值时,通过调整threshold的值可得到不同的正确率和召回率,threshold越大,正确率越高,召回率越低;反之,正确率越低,召回率越高。
下面的实施例,示出了可以根据实际业务来调整threshold到最佳值,以满足广告主的要求。
示例一:肯德基套餐3+广告投放
肯德基为了让消费者熟知新出套餐,需要对消费者进行广告投放,但要求每个投放目标在一段时间内看到广告的次数达3次以上才有效。在线下,选取cookie特征数据,对CART分类模型树进行训练,得到概率预测模型。此外,根据肯德基套餐广告的期望是投放到更多的人群的业务特点,设定threshold为一个小值,为0.04。线上,当一个cookie到达时,提取并格式化cookie数据成用户特征作为模型的输入,该模型输出一个预测值(prob)3,若(prob)3大于等于threshold则投放,若(prob)3小于threshold则不投放。
示例二:康师傅新品2+广告投放
康师傅为了推广新品进行2+广告投放。在线下,选取cookie特征数据,对CART分类模型树进行训练,得到概率预测模型。此外,满足2+的用户数大,可完全达到康师傅广告的覆盖要求,因此,为获得较高的正确率,设定threshold为一个较大值,为0.4。线上,当一个cookie到达时,提取并格式化cookie数据成用户特征作为模型的输入,该模型输出一个预测值(prob)2,若(prob)2大于等于threshold则投放,若(prob)2小于threshold则不投放。
在详细说明本发明的较佳实施例之后,熟悉本领域的技术人员可清楚的了解,在不脱离随附权利要求的保护范围与精神下可进行各种变化与改变,且本发明亦不受限于说明书中所举示例性实施例的实施方式。

Claims (4)

1.一种N+广告投放优化方法,包括:
第一步,抽取目标客户浏览视频的标记值(即cookie)特征数据,生成CART分类树的训练、剪枝、测试数据;
第二步,建立CART分类树模型;
第三步,抽取新的一段时间内的数据,进行N+广告投放预测与算法性能评估。
2.如权利要求1所述的方法,其中第一步生成CART分类树的训练、剪枝、测试数据的步骤进一步包括:
步骤1.1,从视频平台数据系统中记录视频广播播放日志的access日志表中抽取某一天的cookie数据,记为:accessCookieAttrs_a;
步骤1.2,从视频平台数据系统中记录用户相关属性信息的vvlog日志表中抽取该天的cookie数据,记为:vvCookieAttrs_a;
步骤1.3,统计access日志表中一定时间跨度内cookie出现的次数,记为:cookieNum_b_c;
步骤1.4,整合连接上述三个步骤得到的三个数据集:accessCookieAttrs_a,vvCookieAttrs_a,cookieNum_b_c,生成是否再来类属标签,得到新的数据集,记为:trainOriginal_a_c;
步骤1.5,将步骤1.4得到的数据集trainOriginal_a_c进行抽样得到三份新的数据集,分别为CART训练数据集trainOriginal_a_c_train,剪枝数据集trainOriginal_a_c_prune,测试数据集trainOriginal_a_c_test,
其中,a、b、c用于标识时间,a到c为一周的时间跨度。
3.如权利要求2所述的方法,第二步进一步包括:
使用CART训练数据集trainOriginal_a_c_train建立分类树,建树后使用剪枝数据集trainOriginal_a_c_prune对树进行后剪枝得到模型树,通过测试数据集trainOriginal_a_c_test进行测试,经过反复调整测试能够得到最佳分类性能。
4.如权利要求3所述的方法,第三步进一步包括:
重复步骤1.1-1.4生成新的一段时间的数据,记为:simulateCookie_d_e;设定是否投放的阈值threshold,设定有效接触广告的次数为N,其中2≤N≤6,顺序遍历simulateCookie_812_818的数据,对每条数据应用模型预测是否投放,如果投放,则将该cookie加入hash表<cookie,cookieNum>;对每条数据,先看hash表中是否存在投放记录,如果存在投放记录,则该cookieNum++,如果不存在投放记录,则判断是否需要投放,这样得到一个投放记录结果。
CN201510174030.9A 2015-04-13 2015-04-13 一种n+广告投放优化方法 Pending CN104778608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510174030.9A CN104778608A (zh) 2015-04-13 2015-04-13 一种n+广告投放优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510174030.9A CN104778608A (zh) 2015-04-13 2015-04-13 一种n+广告投放优化方法

Publications (1)

Publication Number Publication Date
CN104778608A true CN104778608A (zh) 2015-07-15

Family

ID=53620058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510174030.9A Pending CN104778608A (zh) 2015-04-13 2015-04-13 一种n+广告投放优化方法

Country Status (1)

Country Link
CN (1) CN104778608A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105978967A (zh) * 2016-05-11 2016-09-28 腾讯科技(北京)有限公司 控制信息推送的方法和装置
CN107862551A (zh) * 2017-11-06 2018-03-30 广州虎牙信息科技有限公司 网络应用推广效果的预测方法、装置和终端设备
CN108596651A (zh) * 2018-03-27 2018-09-28 北京奇艺世纪科技有限公司 一种信息处理方法及装置
CN109934611A (zh) * 2017-12-19 2019-06-25 腾讯科技(深圳)有限公司 一种广告投放方法、装置、设备和计算机存储介质
CN111260414A (zh) * 2020-01-23 2020-06-09 湖南快乐阳光互动娱乐传媒有限公司 广告库存预测方法及装置
CN116491914A (zh) * 2023-04-20 2023-07-28 淮阴工学院 一种vr视频智能系统及方法
CN116701770A (zh) * 2023-08-01 2023-09-05 北京创智汇聚科技有限公司 基于决策场景的请求响应优化方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889679A (zh) * 2006-06-06 2007-01-03 西特斯(上海)信息技术有限公司 一种流媒体视频广告投放方法
CN101453368A (zh) * 2007-12-03 2009-06-10 华为技术有限公司 一种因特网ip地址分类和带宽预测的方法、系统及设备
US20090248520A1 (en) * 2008-03-27 2009-10-01 Gmarket Inc. Internet advertisement method and system for distributing commercial sample through membership-based off-line shop based on authentication key issued to target customer on-line
CN101751399A (zh) * 2008-12-12 2010-06-23 中国移动通信集团河北有限公司 决策树优化方法和优化系统
CN102609862A (zh) * 2012-02-02 2012-07-25 北京亿赞普网络技术有限公司 一种获取广告投放参数的方法和装置
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及系统
CN102708496A (zh) * 2012-01-09 2012-10-03 合一网络技术(北京)有限公司 一种自适应视频广告投放方法及装置
CN103295150A (zh) * 2013-05-20 2013-09-11 厦门告之告信息技术有限公司 一种精确量化及准确统计投放效果的广告发布系统及方法
CN103996287A (zh) * 2014-05-26 2014-08-20 江苏大学 一种基于决策树模型的车辆强制换道决策方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889679A (zh) * 2006-06-06 2007-01-03 西特斯(上海)信息技术有限公司 一种流媒体视频广告投放方法
CN101453368A (zh) * 2007-12-03 2009-06-10 华为技术有限公司 一种因特网ip地址分类和带宽预测的方法、系统及设备
US20090248520A1 (en) * 2008-03-27 2009-10-01 Gmarket Inc. Internet advertisement method and system for distributing commercial sample through membership-based off-line shop based on authentication key issued to target customer on-line
CN101751399A (zh) * 2008-12-12 2010-06-23 中国移动通信集团河北有限公司 决策树优化方法和优化系统
CN102708496A (zh) * 2012-01-09 2012-10-03 合一网络技术(北京)有限公司 一种自适应视频广告投放方法及装置
CN102609862A (zh) * 2012-02-02 2012-07-25 北京亿赞普网络技术有限公司 一种获取广告投放参数的方法和装置
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及系统
CN103295150A (zh) * 2013-05-20 2013-09-11 厦门告之告信息技术有限公司 一种精确量化及准确统计投放效果的广告发布系统及方法
CN103996287A (zh) * 2014-05-26 2014-08-20 江苏大学 一种基于决策树模型的车辆强制换道决策方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105978967A (zh) * 2016-05-11 2016-09-28 腾讯科技(北京)有限公司 控制信息推送的方法和装置
CN107862551A (zh) * 2017-11-06 2018-03-30 广州虎牙信息科技有限公司 网络应用推广效果的预测方法、装置和终端设备
CN107862551B (zh) * 2017-11-06 2021-05-11 广州虎牙信息科技有限公司 网络应用推广效果的预测方法、装置和终端设备
CN109934611A (zh) * 2017-12-19 2019-06-25 腾讯科技(深圳)有限公司 一种广告投放方法、装置、设备和计算机存储介质
CN109934611B (zh) * 2017-12-19 2022-11-29 腾讯科技(深圳)有限公司 一种广告投放方法、装置、设备和计算机存储介质
CN108596651A (zh) * 2018-03-27 2018-09-28 北京奇艺世纪科技有限公司 一种信息处理方法及装置
CN111260414A (zh) * 2020-01-23 2020-06-09 湖南快乐阳光互动娱乐传媒有限公司 广告库存预测方法及装置
CN111260414B (zh) * 2020-01-23 2023-04-07 湖南快乐阳光互动娱乐传媒有限公司 广告库存预测方法及装置
CN116491914A (zh) * 2023-04-20 2023-07-28 淮阴工学院 一种vr视频智能系统及方法
CN116491914B (zh) * 2023-04-20 2024-03-26 淮阴工学院 一种vr视频智能系统及方法
CN116701770A (zh) * 2023-08-01 2023-09-05 北京创智汇聚科技有限公司 基于决策场景的请求响应优化方法及系统
CN116701770B (zh) * 2023-08-01 2023-10-27 北京创智汇聚科技有限公司 基于决策场景的请求响应优化方法及系统

Similar Documents

Publication Publication Date Title
CN104778608A (zh) 一种n+广告投放优化方法
US10325289B2 (en) User similarity groups for on-line marketing
US8600709B2 (en) Adaptive analytics multidimensional processing system
CN103295147A (zh) 投放广告的方法、装置和系统
Jerven The Political Economy of Agricultural Statistics and Input Subsidies: Evidence from I ndia, N igeria and M alawi
CN106997549A (zh) 一种广告信息的推送方法及系统
CN103793489B (zh) 一种在线社交网络中社群话题的发现方法
CN104035926B (zh) 一种互联网信息的投放和系统
US20140351046A1 (en) System and Method for Predicting an Outcome By a User in a Single Score
CN103345512A (zh) 一种基于用户属性的网络广告点击率预测方法和装置
CN106682686A (zh) 一种基于手机上网行为的用户性别预测方法
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及系统
CN105260913A (zh) 用于互联网广告投放的ctr预估方法、dsp服务器、系统
CN105260414B (zh) 用户行为相似性计算方法及装置
CN102567902A (zh) 网络广告动态发布方法及其系统
CN103116611A (zh) 社交网络意见领袖识别方法
CN105608604A (zh) 一种品牌广告效果优化的连续计算方法
CN104574124A (zh) 确定广告数据的展示效果的方法及装置
CN110033331A (zh) 一种优惠券的发放方法、系统及终端设备
CN103778125A (zh) 一种网页投放内容的分析方法及装置和网页投放内容的自动投放方法及装置
CN103605714A (zh) 网站异常数据的识别方法及装置
US20150348059A1 (en) System and method for determining the shopping phase of a shopper
CN105893421A (zh) Uv计算方法、装置
CN112950276A (zh) 一种基于多阶特征组合的种子人群拓展方法
CN103700004A (zh) 一种微博广告服务信息推送方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150715

RJ01 Rejection of invention patent application after publication