CN105590240A - 一种品牌广告效果优化的离散计算方法 - Google Patents

一种品牌广告效果优化的离散计算方法 Download PDF

Info

Publication number
CN105590240A
CN105590240A CN201511021014.2A CN201511021014A CN105590240A CN 105590240 A CN105590240 A CN 105590240A CN 201511021014 A CN201511021014 A CN 201511021014A CN 105590240 A CN105590240 A CN 105590240A
Authority
CN
China
Prior art keywords
data
information
feature
advertisement
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511021014.2A
Other languages
English (en)
Inventor
雷龙艳
章岑
杨田
周盛
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
1Verge Internet Technology Beijing Co Ltd
Raytheon Technologies Corp
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201511021014.2A priority Critical patent/CN105590240A/zh
Publication of CN105590240A publication Critical patent/CN105590240A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0244Optimization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0257User requested

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种广告效果优化的离散计算方法及装置,所述方法充分利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化,获取用于模型训练的特征;通过得到特征数据进行逻辑回归模型训练得到优化模型并验证,利用随后的测试数据经过与点击率阈值的比较进行广告投放判断。经过实践证明,本发明提高了对新广告投放的各项指标均有大幅提高,更精准地向用户投放广告,提高点击率。

Description

一种品牌广告效果优化的离散计算方法
技术领域
本申请涉及广告投放领域,具体的,涉及一种利用广告的以往投放数据建立投放模型,对品牌广告效果优化的离散计算方法。
背景技术
品牌广告主在进行广告投放往往希望投放的广告达到一定的展现量,以展现他们的产品,在这个基础上,广告主希望自己的广告在一定展现量的前提下能获取更多的点击率。
要想获取高的广告点击率,除了跟广告本身品质、吸引度相关之外,还与用户是个人的需求及喜好相关,而根据用户需求及喜好向用户投放其喜好的视频广告能够提高广告的点击率。
视频网站是指在完善的技术平台支持下,让互联网用户在线流畅发布、浏览和分享视频作品的网络媒体。由此,视频网站没有像搜索引擎那样获取用户直接需求信息的功能,现阶段的广告点击率预算模型选择不当又导致不能准确地向用户精准地投放视频广告。因此,如何向用户投放更准确的广告在提高广告点击率,进一步的,如何建立更加优化的广告点击率预算模型对广告投放进行预测以向用户精确地投放广告成为现有技术亟待解决的问题。
发明内容
本发明的目的在于提出一种广告投放的预测算法,对视频网站中被挖掘出来的大量用户信息,包括用户基本信息及用户偏好,进行整合处理,结合广告素材本身的特点,通过模型预测及验证最优广告点击率,再进行广告投放点击率优化工作,更精准地像用户投放广告,提高点击率。
为达此目的,本发明采用以下技术方案:
一种广告效果优化的离散计算方法,包括如下步骤:
数据源清洗及整合步骤S110:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化步骤S120:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和模型验证数据;
模型训练及验证步骤S130:使用模型训练数据利用逻辑回归模型算法(LogisticRegression)得到逻辑回归模型,使用模型验证数据在逻辑回归模型中进行验证,得到预测的点击率阈值;
模型测试及投放步骤S140:使用最近的广告投放的所述四种数据,利用特征提取及格式化步骤S120的方法得到所述模型测试数据,将所述模型测试数据输入到逻辑回归模型中获得的点击率值与预先设定的点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
优选地,在数据源清洗及整合步骤S110中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
优选地,在特征提取及格式化步骤S120中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
优选地,在特征提取及格式化步骤S120中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
优选地,在所述模型训练及验证步骤S130中:将逻辑回归模型算法(LogisticRegression)与梯度增强决策树算法(GradientBoostingDecisionTree,简称GBDT)结合,得到逻辑回归模型。
本发明还公开了一种广告效果优化的离散计算装置,包括如下单元:
数据源清洗及整合单元S210:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化单元S220:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和模型验证数据;
模型训练及验证单元S230:使用模型训练数据利用逻辑回归模型算法(LogisticRegression)得到逻辑回归模型,使用模型验证数据在逻辑回归模型中进行验证,得到预测的点击率阈值;
模型测试及投放单元S240:使用最近的广告投放的所述四种数据,利用特征提取及格式化单元S220得到模型测试数据,将所述模型测试数据输入到逻辑回归模型中获得的点击率值与预先设定的点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
优选地,在数据源清洗及整合单元S210中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
优选地,在特征提取及格式化单元S220中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
优选地,在特征提取及格式化单元S220中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
优选地,在所述模型训练及验证单元S230中:将逻辑回归模型算法(LogisticRegression)与梯度增强决策树算法(GradientBoostingDecisionTree,简称GBDT)结合,得到逻辑回归模型。
本发明充分利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化,获取用于模型训练的特征;通过得到特征数据进行逻辑回归模型训练得到优化模型并验证,利用随后的测试数据经过与点击率阈值的比较进行广告投放判断。经过实践证明,本发明提高了对新广告投放的各项指标均有大幅提高,更精准地向用户投放广告,提高点击率。
附图说明
图1是根据本发明的具体实施例的广告效果优化的离散计算方法的流程图;
图2是根据本发明的具体实施例的模型训练与测试体系的示意图;
图3是根据本发明的具体实施例的特征格式化结果的示例
图4是根据本发明的具体实施例的广告效果优化的离散计算装置的模块图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
参见附图1,公开了根据本发明的广告效果优化的离散计算方法的流程图,包括如下步骤:
数据源清洗及整合步骤S110:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据(UserProfiles):指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,进一步优选地,还可以包括用户性别、年龄等信息;该信息可以位于用户信息库中。
素材信息数据:指的是品牌广告的素材信息,示例性的包括该广告所处的行业,子行业,品类信息与广告素材Id,该信息可以位于素材信息数据库中。
广告展示日志信息:指的是广告展示时记录下的相关信息,示例性的包括时间,设备类型,操作系统和所在投放ID中的一个或多个;其中所述投放ID指的是所在的广告投放活动的ID。
广告点击日志信息:用户点击广告时记录下的相关信息,示例性的包括时间,设备类型,操作系统和所在投放ID中的一个或多个;
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息。
在一个优选的实施例中,上述四种信息以用户的cookie标识唯一表示,从而能够在数据的清洗中通过验证去除不需要的属性(或者说去除不合法的cookie),或者对一些缺失的数据进行补充,整合。例如,cookie中包含有不需要用户的登录时间,或者不需要用户的性别,则能够在整合的数据中去除上述的属性。又例如,在某个cookie中缺少用户的年龄,在利用其它包含该用户的cookie中所具有的用户的年龄进行补充、整合。
例如:某用户如果观看了某支广告,并点击了该广告,那么广告展示日志和广告点击日志将分别同时记录下日志,且两条日志的cookie、会话Id以及广告位Id是相同的。如果只观看了而没有点击该广告,则只在广告展示日志里记录有日志。对广告点击日志和广告展示日志通过cookie,会话Id,广告Id进行整合,某个用户在某次会话中既观看又点击了该广告,则把这条点击日志记为正样本。如果用户在某次会话中只观看但并无点击该广告,则把这条日志记为负样本。然后,通过日志里的广告素材Id可以与素材信息库进行连接整合得到广告素材的行业描述信息,最后通过日志里的cookie可以与用户信息库里的用户信息进行连接整合得到该用户的人口属性与偏好信息。
特征提取及格式化步骤S120:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和模型验证数据;即模型训练数据和模型验证数据都是相同格式的数据,仅仅是分配的数量不同而已。进一步优选的,模型训练数据和模型验证数据的比例为7:3。
进一步的,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息,例如:时间、地点、广告位、频道、子频道和设备类型;
广告信息特征,即广告素材的描述信息,例如:广告行业,子行业与品类信息;
用户信息特征,即当前用户的基础信息与偏好信息,例如:性别、年龄、广告偏好和频道偏好。
进一步的,所述格式化包括将上述三种特征进行格式化,变成适合算法训练的数据格式。这里分两类特征,类别特征与连续特征,需要分别进行处理。
所述类别特征:指的是具有有限几种类别的特征,包括设备类型、性别等,需要对它进行离散化编码,使得算法计算时能够有效理解。采用普遍的独热编码(One-hotencoding)技术对类别特征进行编码。
所述连续特征,指的是具有连续范围的特征,包括素材时长,视频时长,某投放的历史CTR统计值等。连续特征是否需要进行离散化要根据选择的算法模型而定。当采用逻辑回归模型由于要对各维度数据进行线性组合,所以需要进行离散化处理,而使用树模型则不需要进行离散化。连续特征离散化一般采用分段离散的方法,比如广告素材时长,可以分5s为一段进行One-hotencoding编码。
模型训练及验证步骤S130:使用模型训练数据利用逻辑回归模型算法(LogisticRegression)得到逻辑回归模型,使用模型验证数据在逻辑回归模型中进行验证,得到预测的点击率阈值;
逻辑回归模型算法(LogisticRegression):逻辑回归模型是一个应用十分普遍的模型,它在整个向量空间中计算每一个特征维度的权重,对每一条记录,都计算这些权重与对应特征值的加权和,再把结果应用一个Logistic函数得到点击率预测概率值。
模型测试及投放步骤S140:使用最近的广告投放的所述四种数据,利用特征提取及格式化步骤S120的方法得到所述模型测试数据,将所述模型测试数据输入到逻辑回归模型中获得的点击率值与预先设定的点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
参见图2,进一步公开了模型训练与测试体系的示意图。利用原始数据根据步骤S110和S120得到第一份格式化数据,例如第一天的数据,并将该格式化数据分为模型训练数据和模型验证数据;通过模型训练得到逻辑回归模型,并利用模型验证数据进行验证,从而调整得到点击率阈值。
将第一份格式化数据之后投放广告得到的数据,例如第二天的数据,也利用步骤S110和S120得到第二份格式化数据,并将该格式化数据作为测试数据通过逻辑回归模型得到点击率值与预先设定的点击率阈值比较,大于等于预先设定的点击率阈值则进行投放,小于预先设定的点击率阈值则不投放。这样,能够得知是否应当继续投放广告,从而进行第三天的投放。
而在广告继续投放时,也继续利用第三天的数据通过步骤S110和S120得到格式化数据,并将该格式化数据作为测试数据通过逻辑回归模型得到点击率值与预先设定的点击率阈值比较,从而判断是否投放数据。后续的广告投放也采用类似的方式,这样,每天投放的广告得到的数据都能为后一天广告是否投放进行参考,从而实现了广告投放的动态判断。
进一步的,在所述模型训练及验证步骤S130中:将逻辑回归模型算法(LogisticRegression)与梯度增强决策树算法(GradientBoostingDecisionTree,简称GBDT)结合,得到逻辑回归模型。
其中,逻辑回归模型算法(LogisticRegression)的模型构建算法,采用常规算法,也可参考https://en.wikipedia.org/wiki/Logistic_regression
梯度增强决策树算法(GradientBoostingDecisionTree,简称GBDT)采用常规算法,也可参考https://en.wikipedia.org/wiki/Decision_tree
实施例1:
使用视频网站里一天的广告点击日志,广告展示日志,广告素材信息,用户信息进行数据整合与清洗后对特征进行抽取与格式化。一共提取35项特征,其中上下文特征包括:时间、城市、设备类型等;广告素材特征包括:素材行业,子行业,品类;用户信息特征包括:性别,年龄,广告偏好,频道偏好;组合特征包括:时间与设备类型组合,性别与广告行业组合等,即已存在的属性进行组合变成新的特性。抽取后的这些特征要经过One-hotencoding编码进行离散化,因此这35项特征一共映射到5369维特征空间中。每个样本将表示为5369维的向量和自身是正样本或负样本标识的记录。由于5369维是一个很大的特征空间,而且整个数据矩阵是非常稀疏的,所以只存储有值的特征维度。如图3,第一列是正负样本的标识,1表示正样本,0表示负样本,后面的每列是以维度为key,该维度特征值为value的组合key:value数据。
经过建模后,进行验证、测试,可以使用精确率,召回率,F值与按该模型投放的新点击率四项指标来描述模型的好坏。结果如表1所示。
算法 精确率 召回率 F值 新点击率
逻辑回归模型 0.792656 0.8227154 0.8074061 0.0495689
表1:逻辑回归模型效果
本发明充分地利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化,获取用于模型训练的特征;通过得到特征数据进行逻辑回归模型训练得到优化模型并验证,利用随后的测试数据经过与点击率阈值的比较进行广告投放判断。经过实践证明,本发明提高了对新广告投放的各项指标均有大幅提高,更精准地向用户投放广告,提高点击率。
参见图4,本发明还公开了一种广告效果优化的离散计算装置,包括如下单元:
数据源清洗及整合单元S210:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关高行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化单元S220:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和模型验证数据;
模型训练及验证单元S230:使用模型训练数据利用逻辑回归模型算法(LogisticRegression)得到逻辑回归模型,使用模型验证数据在逻辑回归模型中进行验证,得到预测的点击率阈值;
模型测试及投放单元S240:使用最近的广告投放的所述四种数据,利用特征提取及格式化单元S220得到模型测试数据,将所述模型测试数据输入到逻辑回归模型中获得的点击率值与预先设定的点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
优选地,在数据源清洗及整合单元S210中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
优选地,在特征提取及格式化单元S220中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
优选地,在特征提取及格式化单元S220中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
优选地,在所述模型训练及验证单元S230中:将逻辑回归模型算法(LogisticRegression)与梯度增强决策树算法(GradientBoostingDecisionTree,简称GBDT)结合,得到逻辑回归模型。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (10)

1.一种广告效果优化的离散计算方法,包括如下步骤:
数据源清洗及整合步骤(S110):获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化步骤(S120):对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和模型验证数据;
模型训练及验证步骤(S130):使用模型训练数据利用逻辑回归模型算法(LogisticRegression)得到逻辑回归模型,使用模型验证数据在逻辑回归模型中进行验证,得到预测的点击率阈值;
模型测试及投放步骤(S140):使用最近的广告投放的所述四种数据,利用特征提取及格式化步骤的方法得到所述模型测试数据,将所述模型测试数据输入到逻辑回归模型中获得的点击率值与预先设定的点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
2.根据权利要求1所述的广告效果优化的离散计算方法,其特征在于:
在数据源清洗及整合步骤(S110)中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
3.根据权利要求1所述的广告效果优化的离散计算方法,其特征在于:
在特征提取及格式化步骤(S120)中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
4.根据权利要求3所述的广告效果优化的离散计算方法,其特征在于:
在特征提取及格式化步骤(S120)中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
5.根据权利要求1-4中任意一项所述的广告效果优化的离散计算方法,其特征在于:
在所述模型训练及验证步骤(S130)中:将逻辑回归模型算法(LogisticRegression)与梯度增强决策树算法(GradientBoostingDecisionTree,简称GBDT)结合,训练得到逻辑回归模型。
6.一种广告效果优化的离散计算装置,包括如下单元:
数据源清洗及整合单元(S210):获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化单元(S220):对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和模型验证数据;
模型训练及验证单元(S230):使用模型训练数据利用逻辑回归模型算法(LogisticRegression)得到逻辑回归模型,使用模型验证数据在逻辑回归模型中进行验证,得到预测的点击率阈值;
模型测试及投放单元(S240):使用最近的广告投放的所述四种数据,利用特征提取及格式化单元得到模型测试数据,将所述模型测试数据输入到逻辑回归模型中获得的点击率值与预先设定的点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
7.根据权利要求6所述的广告效果优化的离散计算装置,其特征在于:
在数据源清洗及整合单元(S210)中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
8.根据权利要求6所述的广告效果优化的离散计算装置,其特征在于:
在特征提取及格式化单元(S220)中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
9.根据权利要求8所述的广告效果优化的离散计算装置,其特征在于:
在特征提取及格式化单元(S220)中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
10.根据权利要求6-9中任意一项所述的广告效果优化的离散计算装置,其特征在于:
在所述模型训练及验证单元(S230)中:将逻辑回归模型算法(LogisticRegression)与梯度增强决策树算法(GradientBoostingDecisionTree,简称GBDT)结合,训练得到逻辑回归模型。
CN201511021014.2A 2015-12-30 2015-12-30 一种品牌广告效果优化的离散计算方法 Pending CN105590240A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511021014.2A CN105590240A (zh) 2015-12-30 2015-12-30 一种品牌广告效果优化的离散计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511021014.2A CN105590240A (zh) 2015-12-30 2015-12-30 一种品牌广告效果优化的离散计算方法

Publications (1)

Publication Number Publication Date
CN105590240A true CN105590240A (zh) 2016-05-18

Family

ID=55929805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511021014.2A Pending CN105590240A (zh) 2015-12-30 2015-12-30 一种品牌广告效果优化的离散计算方法

Country Status (1)

Country Link
CN (1) CN105590240A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509459A (zh) * 2017-02-28 2018-09-07 腾讯科技(北京)有限公司 数据处理方法和装置
CN108734348A (zh) * 2018-05-14 2018-11-02 广东心里程教育集团有限公司 一种自动推送在线课程的方法和系统
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法
CN109074359A (zh) * 2016-06-15 2018-12-21 谷歌有限责任公司 使用模型优化内容分发
CN109447273A (zh) * 2018-09-30 2019-03-08 深圳市元征科技股份有限公司 模型训练方法、广告推荐方法、相关装置、设备及介质
CN110689368A (zh) * 2019-08-22 2020-01-14 北京大学(天津滨海)新一代信息技术研究院 一种移动应用内广告点击率预测系统设计方法
CN110728541A (zh) * 2019-10-11 2020-01-24 广州市丰申网络科技有限公司 信息流媒体广告创意推荐方法及装置
CN112990967A (zh) * 2021-03-09 2021-06-18 广州筷子信息科技有限公司 一种广告创意的分析方法和系统
CN113034167A (zh) * 2019-12-24 2021-06-25 上海佳投互联网技术集团有限公司 一种基于用户行为的用户兴趣分析方法及广告投放方法
CN113139827A (zh) * 2020-01-20 2021-07-20 上海哔哩哔哩科技有限公司 用户个性化特征挖掘方法和系统
CN113222647A (zh) * 2021-04-26 2021-08-06 西安点告网络科技有限公司 基于点击率预估模型的广告推荐方法、系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310003A (zh) * 2013-06-28 2013-09-18 华东师范大学 一种基于点击日志的新广告点击率预测方法及系统
CN103345512A (zh) * 2013-07-06 2013-10-09 北京品友互动信息技术有限公司 一种基于用户属性的网络广告点击率预测方法和装置
CN103761296A (zh) * 2014-01-20 2014-04-30 北京集奥聚合科技有限公司 移动终端用户网络行为分析方法及系统
CN104732279A (zh) * 2015-03-25 2015-06-24 武汉大学 基于地理信息系统的改进元胞自动机交通流模拟分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103310003A (zh) * 2013-06-28 2013-09-18 华东师范大学 一种基于点击日志的新广告点击率预测方法及系统
CN103345512A (zh) * 2013-07-06 2013-10-09 北京品友互动信息技术有限公司 一种基于用户属性的网络广告点击率预测方法和装置
CN103761296A (zh) * 2014-01-20 2014-04-30 北京集奥聚合科技有限公司 移动终端用户网络行为分析方法及系统
CN104732279A (zh) * 2015-03-25 2015-06-24 武汉大学 基于地理信息系统的改进元胞自动机交通流模拟分析方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109074359A (zh) * 2016-06-15 2018-12-21 谷歌有限责任公司 使用模型优化内容分发
CN109074359B (zh) * 2016-06-15 2023-05-09 谷歌有限责任公司 使用模型优化内容分发
US11531925B2 (en) 2016-06-15 2022-12-20 Google Llc Optimizing content distribution using a model
CN108509459B (zh) * 2017-02-28 2022-05-20 腾讯科技(北京)有限公司 数据处理方法和装置
CN108509459A (zh) * 2017-02-28 2018-09-07 腾讯科技(北京)有限公司 数据处理方法和装置
CN108734348A (zh) * 2018-05-14 2018-11-02 广东心里程教育集团有限公司 一种自动推送在线课程的方法和系统
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法
CN109447273A (zh) * 2018-09-30 2019-03-08 深圳市元征科技股份有限公司 模型训练方法、广告推荐方法、相关装置、设备及介质
CN110689368B (zh) * 2019-08-22 2022-07-19 北京大学(天津滨海)新一代信息技术研究院 一种移动应用内广告点击率预测系统设计方法
CN110689368A (zh) * 2019-08-22 2020-01-14 北京大学(天津滨海)新一代信息技术研究院 一种移动应用内广告点击率预测系统设计方法
CN110728541A (zh) * 2019-10-11 2020-01-24 广州市丰申网络科技有限公司 信息流媒体广告创意推荐方法及装置
CN110728541B (zh) * 2019-10-11 2024-01-23 广州市丰申网络科技有限公司 信息流媒体广告创意推荐方法及装置
CN113034167A (zh) * 2019-12-24 2021-06-25 上海佳投互联网技术集团有限公司 一种基于用户行为的用户兴趣分析方法及广告投放方法
CN113139827A (zh) * 2020-01-20 2021-07-20 上海哔哩哔哩科技有限公司 用户个性化特征挖掘方法和系统
CN112990967A (zh) * 2021-03-09 2021-06-18 广州筷子信息科技有限公司 一种广告创意的分析方法和系统
CN112990967B (zh) * 2021-03-09 2022-07-29 广州筷子信息科技有限公司 一种广告创意的分析方法和系统
CN113222647A (zh) * 2021-04-26 2021-08-06 西安点告网络科技有限公司 基于点击率预估模型的广告推荐方法、系统及存储介质
CN113222647B (zh) * 2021-04-26 2023-11-28 西安点告网络科技有限公司 基于点击率预估模型的广告推荐方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN105590240A (zh) 一种品牌广告效果优化的离散计算方法
US11887133B2 (en) Methods and apparatus to generate electronic mobile measurement census data
US11700405B2 (en) Methods and apparatus to estimate demographics of a household
CN105608604A (zh) 一种品牌广告效果优化的连续计算方法
US20170011420A1 (en) Methods and apparatus to analyze and adjust age demographic information
CN111178970B (zh) 广告投放的方法及装置、电子设备和计算机可读存储介质
KR102159274B1 (ko) 복수의 이벤트들에 기여도 크레딧을 할당하기 위한 데이터-중심 기여도 모델을 생성하기 위한 방법들 및 시스템들
CN106462858B (zh) 通过数据库所有者针对错误认定和/或未覆盖补偿印象数据的方法和装置
CN105654198B (zh) 具有最优阈值筛选的品牌广告效果优化的方法
CN102880688B (zh) 一种用于对网页进行评估的方法、装置和设备
US10262336B2 (en) Non-converting publisher attribution weighting and analytics server and method
US20150067075A1 (en) Methods and apparatus to estimate demographics of users employing social media
US8732015B1 (en) Social media pricing engine
CN108205766A (zh) 信息推送方法、装置及系统
US20230214863A1 (en) Methods and apparatus to correct age misattribution
US9363558B2 (en) Methods and apparatus to measure a cross device audience
US20190050890A1 (en) Video dotting placement analysis system, analysis method and storage medium
US20170213241A1 (en) Reach and frequency for online advertising based on data aggregation and computing
US20230316106A1 (en) Method and apparatus for training content recommendation model, device, and storage medium
WO2018118986A1 (en) Multi-source modeling for network predictions
CN104410908A (zh) 视频广告的监测方法及装置
US20180174171A1 (en) Methods and apparatus to determine reach with time dependent weights
CN115345635A (zh) 推荐内容的处理方法、装置、计算机设备和存储介质
CN111178934A (zh) 获取目标对象的方法及装置
US20230319332A1 (en) Methods and apparatus to analyze and adjust age demographic information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Applicant after: Youku network technology (Beijing) Co., Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Applicant before: 1Verge Inc.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20160518

RJ01 Rejection of invention patent application after publication