CN105654198B - 具有最优阈值筛选的品牌广告效果优化的方法 - Google Patents

具有最优阈值筛选的品牌广告效果优化的方法 Download PDF

Info

Publication number
CN105654198B
CN105654198B CN201511020056.4A CN201511020056A CN105654198B CN 105654198 B CN105654198 B CN 105654198B CN 201511020056 A CN201511020056 A CN 201511020056A CN 105654198 B CN105654198 B CN 105654198B
Authority
CN
China
Prior art keywords
data
clicking rate
model
information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511020056.4A
Other languages
English (en)
Other versions
CN105654198A (zh
Inventor
杨田
雷龙艳
章岑
周盛
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Youku Network Technology Beijing Co Ltd
Original Assignee
1Verge Internet Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 1Verge Internet Technology Beijing Co Ltd filed Critical 1Verge Internet Technology Beijing Co Ltd
Priority to CN201511020056.4A priority Critical patent/CN105654198B/zh
Publication of CN105654198A publication Critical patent/CN105654198A/zh
Application granted granted Critical
Publication of CN105654198B publication Critical patent/CN105654198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0245Surveys
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种具有最优阈值筛选的品牌广告效果优化的方法及装置,所述方法充分利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化,获取用于模型训练的特征;通过得到特征数据进行模型训练得到训练模型,利用不同时间段的验证数据通过训练模型分别得到不同的点击率,比较优选后得到点击率阈值。利用随后的测试数据经过与点击率阈值的比较进行广告投放判断。经过实践证明,本发明提高了对新广告投放的各项指标均有大幅提高,更精准地向用户投放广告,提高点击率。

Description

具有最优阈值筛选的品牌广告效果优化的方法
技术领域
本申请涉及广告投放领域,具体的,涉及一种利用广告的以往投放数据建立投放模型,对最优阈值筛选的品牌广告效果优化的方法。
背景技术
品牌广告主在进行广告投放往往希望投放的广告达到一定的展现量,以展现他们的产品,在这个基础上,广告主希望自己的广告在一定展现量的前提下能获取更多的点击率。
要想获取高的广告点击率,除了跟广告本身品质、吸引度相关之外,还与用户是个人的需求及喜好相关,而根据用户需求及喜好向用户投放其喜好的视频广告能够提高广告的点击率。
视频网站是指在完善的技术平台支持下,让互联网用户在线流畅发布、浏览和分享视频作品的网络媒体。由此,视频网站没有像搜索引擎那样获取用户直接需求信息的功能,现阶段的广告点击率预算模型选择不当又导致不能准确地向用户精准地投放视频广告。因此,如何向用户投放更准确的广告并且提高广告点击率,进一步的,如何建立更加优化的广告点击率预算模型对广告投放进行预测以向用户精确地投放广告成为现有技术亟待解决的问题。
发明内容
本发明的目的在于提出一种广告投放的预测算法,对视频网站中被挖掘出来的大量用户信息,包括用户基本信息及用户偏好,进行整合处理,结合广告素材本身的特点,通过模型预测及验证最优广告点击率,再进行广告投放点击率优化工作,更精准地向用户投放广告,提高点击率。
为达此目的,本发明采用以下技术方案:
一种具有最优阈值筛选的品牌广告效果优化的方法,包括如下步骤:
数据源清洗及整合步骤S110:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化步骤S120:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;
模型训练及验证步骤S130:使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,
使用在模型训练数据之后的广告投放的所述四种数据,利用特征提取及格式化步骤的方法得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;
模型测试及投放步骤S140:利用第二验证数据之后的广告投放的所述四种数据,利用特征提取及格式化步骤的方法得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
优选地,在数据源清洗及整合步骤中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
优选地,在特征提取及格式化步骤中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
优选地,在特征提取及格式化步骤中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
优选地,在所述模型训练及验证步骤中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
本发明还公开了一种具有最优阈值筛选的品牌广告效果优化的装置,包括如下单元:
数据源清洗及整合单元S210:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化单元S220:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;
模型训练及验证单元S230:使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,
使用在模型训练数据之后的广告投放的所述四种数据,利用特征提取及格式化单元得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;
模型测试及投放单元S240:利用第二验证数据之后的广告投放的所述四种数据,利用特征提取及格式化单元得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
优选地,在数据源清洗及整合单元中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
优选地,在特征提取及格式化单元中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
优选地,在特征提取及格式化单元中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
优选地,在所述模型训练及验证单元中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
本发明充分利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化,获取用于模型训练的特征;通过得到特征数据进行模型训练得到训练模型,利用不同时间段的验证数据通过训练模型分别得到不同的点击率,比较优选后得到点击率阈值。利用随后的测试数据经过与点击率阈值的比较进行广告投放判断。经过实践证明,本发明提高了对新广告投放的各项指标均有大幅提高,更精准地向用户投放广告,提高点击率。
附图说明
图1是根据本发明的具体实施例的具有最优阈值筛选的品牌广告效果优化的方法的流程图;
图2是根据本发明的具体实施例的模型训练与测试体系的示意图;
图3是根据本发明的具体实施例的特征格式化结果的示例
图4是根据本发明的具体实施例的具有最优阈值筛选的品牌广告效果优化的装置的模块图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
参见附图1,公开了根据本发明的具有最优阈值筛选的品牌广告效果优化的方法的流程图,包括如下步骤:
数据源清洗及整合步骤S110:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据(User Profiles):指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,进一步优选地,还可以包括用户性别、年龄等信息;该信息可以位于用户信息库中。
素材信息数据:指的是品牌广告的素材信息,示例性的包括该广告所处的行业,子行业,品类信息与广告素材Id,该信息可以位于素材信息数据库中。
广告展示日志信息:指的是广告展示时记录下的相关信息,示例性的包括时间,设备类型,操作系统和所在投放ID中的一个或多个;其中所述投放ID指的是所在的广告投放活动的ID。
广告点击日志信息:用户点击广告时记录下的相关信息,示例性的包括时间,设备类型,操作系统和所在投放ID中的一个或多个;
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息。
在一个优选的实施例中,上述四种信息以用户的cookie标识唯一表示,从而能够在数据的清洗中通过验证去除不需要的属性(或者说去除不合法的cookie),或者对一些缺失的数据进行补充,整合。例如,cookie中包含有不需要用户的登录时间,或者不需要用户的性别,则能够在整合的数据中去除上述的属性。又例如,在某个cookie中缺少用户的年龄,在利用其它包含该用户的cookie中所具有的用户的年龄进行补充、整合。
例如:某用户如果观看了某支广告,并点击了该广告,那么广告展示日志和广告点击日志将分别同时记录下日志,且两条日志的cookie、会话Id以及广告位Id是相同的。如果只观看了而没有点击该广告,则只在广告展示日志里记录有日志。对广告点击日志和广告展示日志通过cookie,会话Id,广告Id进行整合,某个用户在某次会话中既观看又点击了该广告,则把这条点击日志记为正样本。如果用户在某次会话中只观看但并无点击该广告,则把这条日志记为负样本。然后,通过日志里的广告素材Id可以与素材信息库进行连接整合得到广告素材的行业描述信息,最后通过日志里的cookie可以与用户信息库里的用户信息进行连接整合得到该用户的人口属性与偏好信息。
特征提取及格式化步骤S120:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和模型验证数据;即模型训练数据和第一验证数据都是相同格式的数据,仅仅是分配的数量不同而已。进一步优选的,模型训练数据和第一验证数据的比例为7:3。
进一步的,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息,例如:时间、地点、广告位、频道、子频道和设备类型;
广告信息特征,即广告素材的描述信息,例如:广告行业,子行业与品类信息;
用户信息特征,即当前用户的基础信息与偏好信息,例如:性别、年龄、广告偏好和频道偏好。
进一步的,所述格式化包括将上述三种特征进行格式化,变成适合算法训练的数据格式。这里分两类特征,类别特征与连续特征,需要分别进行处理。
所述类别特征:指的是具有有限几种类别的特征,包括设备类型、性别等,需要对它进行离散化编码,使得算法计算时能够有效理解。采用普遍的独热编码(One-hotencoding)技术对类别特征进行编码。
所述连续特征,指的是具有连续范围的特征,包括素材时长,视频时长,某投放的历史CTR统计值等。连续特征是否需要进行离散化要根据选择的算法模型而定。当采用逻辑回归模型由于要对各维度数据进行线性组合,所以需要进行离散化处理,而使用树模型则不需要进行离散化。连续特征离散化一般采用分段离散的方法,比如广告素材时长,可以分5s为一段进行One-hot encoding编码。
模型训练及验证步骤S130:使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,其中最优点击率可以是最高的点击率;
使用在模型训练数据之后的广告投放的所述四种数据,利用特征提取及格式化步骤S120的方法得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,其中最优点击率可以是最高的点击率;
将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值。
其中最近的广告投放数据是在模型训练数据之后的广告投放数据。相当于用第一天广告投放的数据训练得到模型训练数据和第一验证数据,利用第二天广告投放的数据作为第二份的数据,以作为第二验证数据。将第一验证数据在线性预测曲线上的最高点作为第一点击率,将第二验证数据在线性预测曲线上的最高点作为第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值。
因此,本方法在点击率预测时候采用了时间范围更为宽广的广告投放数据,使得得到的点击率阈值更为客观。
模型测试及投放步骤S140:利用第二验证数据之后的广告投放的所述四种数据,利用特征提取及格式化步骤S120的方法得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
参见图2,进一步公开了模型训练与测试体系的示意图。利用原始数据根据步骤S110和S120得到第一份格式化数据,例如第一天的数据,并将该格式化数据分为模型训练数据和模型验证数据;通过模型训练得到训练模型,并利用第一验证数据进行验证,从而调整得到第一点击率。
将第一份格式化数据之后投放广告得到的数据,例如第二天的数据,也利用步骤S110和S120得到第二份格式化数据,并将该格式化数据作为第二验证数据通过所述测试模型得到第二点击率;将第一点击率与第二点击率比较,进行线性比较,最高值作为预测的点击率阈值。
将第二份格式化数据之后的广告投放数据,例如第三天广告投放数据也利用步骤S110和S120得到第三份格式化数据,并将该格式化数据作为模型测试数据通过所述测试模型得到测试点击率,将测试点击率与预先设定的点击率阈值比较,大于等于预先设定的点击率阈值则进行投放,小于预先设定的点击率阈值则不投放。这样,能够得知是否应当继续投放广告,从而进行了第四天的广告投放。
而在广告继续投放时,也继续利用第四天的数据通过步骤S110和S120得到格式化数据,并将该格式化数据作为测试数据通过测试模型得到点击率值与预先设定的点击率阈值比较,从而判断是否投放数据。后续的广告投放也采用类似的方式,这样,每天投放的广告得到的数据都能为后一天广告是否投放进行参考,从而实现了广告投放的动态判断。
进一步的,在所述模型训练及验证步骤S130中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
逻辑回归模型算法(Logistic Regression):逻辑回归模型是一个应用十分普遍的模型,它在整个向量空间中计算每一个特征维度的权重,对每一条记录,都计算这些权重与对应特征值的加权和,再把结果应用一个Logistic函数得到点击率预测概率值。
GBDT:这是一个树模型,使用指定N颗树对数据进行训练。最初使用一棵树对数据进行训练,然后逐渐加入新树对模型进行增强。
优选的,在实验中,使用树数目N=10,每颗树深度Depth=4取得了良好的效果。
其中,逻辑回归模型算法(Logistic Regression)的模型构建算法,采用常规算法,也可参考https://en.wikipedia.org/wiki/Logistic_regression。
梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT)采用常规算法,也可参考https://en.wikipedia.org/wiki/Decision_tree。
实施例1:
使用视频网站里一天的广告点击日志,广告展示日志,广告素材信息,用户信息进行数据整合与清洗后对特征进行抽取与格式化。一共提取35项特征,其中上下文特征包括:时间、城市、设备类型等;广告素材特征包括:素材行业,子行业,品类;用户信息特征包括:性别,年龄,广告偏好,频道偏好;组合特征包括:时间与设备类型组合,性别与广告行业组合等。抽取后的这些特征要经过One-hot encoding编码进行离散化,因此这35项特征一共映射到5369维特征空间中。每个样本将表示为5369维的向量和自身是正样本或负样本标识的记录。由于5369维是一个很大的特征空间,而且整个数据矩阵是非常稀疏的,所以只存储有值的特征维度。如图3,第一列是正负样本的标识,1表示正样本,0表示负样本,后面的每列是以维度为key,该维度特征值为value的组合key:value数据。
经过建模后,进行验证、测试,可以使用精确率,召回率,F值与按该模型投放的新点击率四项指标来描述模型的好坏。结果如表1所示。
表1:训练模型效果
本发明充分地利用了视频网站中被挖掘出的大量用户信息,包括人口基础信息和偏好,还能够结合素材本身的行业描述,对这些数据整合、清洗;再进行特征抽取与格式化,获取用于模型训练的特征;通过得到特征数据进行逻辑回归模型训练得到优化模型并验证的方法。经过实践证明,本发明提高了对新广告投放的各项指标均有大幅提高。
参见图4,本发明还公开了一种具有最优阈值筛选的品牌广告效果优化的装置,包括如下单元:
数据源清洗及整合单元S210:获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化单元S220:对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;
模型训练及验证单元S230:使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,
使用在模型训练数据之后的广告投放的所述四种数据,利用特征提取及格式化单元得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;
模型测试及投放单元S240:利用第二验证数据之后的广告投放的所述四种数据,利用特征提取及格式化单元S220得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
优选地,在数据源清洗及整合单元S210中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
优选地,在特征提取及格式化单元S220中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
优选地,在特征提取及格式化单元S220中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
优选地,在所述模型训练及验证单元S230中:所述模型算法为逻辑回归模型算法(Logistic Regression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (10)

1.一种具有最优阈值筛选的品牌广告效果优化的方法,包括如下步骤:
数据源清洗及整合步骤(S110):获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化步骤(S120):对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;
模型训练及验证步骤(S130):使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,
使用在模型训练数据之后重新获取到的广告投放的所述四种数据,利用特征提取及格式化步骤的方法得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;
模型测试及投放步骤(S140):利用第二验证数据之后重新获取到的广告投放的所述四种数据,利用特征提取及格式化步骤的方法得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
2.根据权利要求1所述的具有最优阈值筛选的品牌广告效果优化的方法,其特征在于:
在数据源清洗及整合步骤中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
3.根据权利要求1所述的具有最优阈值筛选的品牌广告效果优化的方法,其特征在于:
在特征提取及格式化步骤中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
4.根据权利要求3所述的具有最优阈值筛选的品牌广告效果优化的方法,其特征在于:
在特征提取及格式化步骤中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
5.根据权利要求1-4中任意一项所述的具有最优阈值筛选的品牌广告效果优化的方法,其特征在于:
在所述模型训练及验证步骤中:所述模型算法为逻辑回归模型算法(LogisticRegression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
6.一种具有最优阈值筛选的品牌广告效果优化的装置,包括如下单元:
数据源清洗及整合单元(S210):获得四种数据作为点击率优化模型的数据源,所述四种数据包括:
用户信息数据:指的是用户在视频网站内观看和/或点击广告的行为得到的用户关注行业偏好信息以及视频网站偏好信息,
素材信息数据:指的是品牌广告的素材信息,
广告展示日志信息:指的是广告展示时记录下的相关信息,
广告点击日志信息:用户点击广告时记录下的相关信息,
将上述四种数据进行数据的整合与清洗,得到用户的人口属性和偏好信息;
特征提取及格式化单元(S220):对清洗及整合后的数据进行特征提取与格式化,将格式化后的数据按照一定的比例进行分配得到模型训练数据和第一验证数据;
模型训练及验证单元(S230):使用模型训练数据利用模型算法进行模型训练得到训练模型,使用第一验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第一点击率,
使用在模型训练数据之后重新获取到的广告投放的所述四种数据,利用特征提取及格式化单元得到第二验证数据,使用所述第二验证数据在所述训练模型中进行验证,选定最优点击率作为预测的第二点击率,将第一点击率与第二点击率进行线性比较,最高值作为预测的点击率阈值;
模型测试及投放单元(S240):利用第二验证数据之后重新获取到的广告投放的所述四种数据,利用特征提取及格式化单元得到模型测试数据,将所述模型测试数据输入到所述训练模型中获得的点击率值与所述点击率阈值比较,大于等于所述点击率阈值则进行投放,小于点击率阈值则不投放。
7.根据权利要求6所述的具有最优阈值筛选的品牌广告效果优化的装置,其特征在于:
在数据源清洗及整合单元中,所述将上述四种数据进行数据的整合与清洗,包括通过验证去除不需要的属性,或者对一些缺失的数据进行补充,整合。
8.根据权利要求6所述的具有最优阈值筛选的品牌广告效果优化的装置,其特征在于:
在特征提取及格式化单元中,所述特征提取进一步包括抽取三方面不同的特征,包括:
上下文信息特征,即发生当前广告行为时的上下文环境信息;
广告信息特征,即广告素材的描述信息;
用户信息特征,即当前用户的基础信息与偏好信息。
9.根据权利要求8所述的具有最优阈值筛选的品牌广告效果优化的装置,其特征在于:
在特征提取及格式化单元中,所述格式化包括将上述三种特征分两类不同类别的特征:类别特征与连续特征,分别进行处理,变成适合算法训练的数据格式。
10.根据权利要求6-9中任意一项所述的具有最优阈值筛选的品牌广告效果优化的装置,其特征在于:
在所述模型训练及验证单元中:所述模型算法为逻辑回归模型算法(LogisticRegression)或梯度增强决策树算法(Gradient Boosting Decision Tree,简称GBDT),或者两者的结合,得到所述训练模型。
CN201511020056.4A 2015-12-30 2015-12-30 具有最优阈值筛选的品牌广告效果优化的方法 Active CN105654198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511020056.4A CN105654198B (zh) 2015-12-30 2015-12-30 具有最优阈值筛选的品牌广告效果优化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511020056.4A CN105654198B (zh) 2015-12-30 2015-12-30 具有最优阈值筛选的品牌广告效果优化的方法

Publications (2)

Publication Number Publication Date
CN105654198A CN105654198A (zh) 2016-06-08
CN105654198B true CN105654198B (zh) 2017-04-12

Family

ID=56478327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511020056.4A Active CN105654198B (zh) 2015-12-30 2015-12-30 具有最优阈值筛选的品牌广告效果优化的方法

Country Status (1)

Country Link
CN (1) CN105654198B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742221A (zh) * 2016-08-23 2018-02-27 腾讯科技(深圳)有限公司 一种推广信息的处理方法、装置和系统
CN107094166A (zh) * 2016-12-12 2017-08-25 口碑控股有限公司 一种业务信息发送方法及装置
CN110895775A (zh) * 2019-11-29 2020-03-20 秒针信息技术有限公司 广告物料元素信息提取方法、装置、电子设备及存储介质
CN111178983B (zh) * 2020-01-03 2024-03-12 北京搜狐新媒体信息技术有限公司 用户性别预测方法、装置、设备及存储介质
CN111539763B (zh) * 2020-04-14 2022-08-12 支付宝(杭州)信息技术有限公司 一种广告投放的优化方法、装置及电子设备
CN112862516B (zh) * 2021-01-14 2024-03-12 北京达佳互联信息技术有限公司 资源投放方法、装置、电子设备及存储介质
CN112767038B (zh) * 2021-01-25 2021-08-27 特赞(上海)信息科技有限公司 基于美学特征的海报ctr预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100250361A1 (en) * 2009-03-30 2010-09-30 Kendra Torigoe System and method for providing advertising server optimization for online computer users
CN103310003A (zh) * 2013-06-28 2013-09-18 华东师范大学 一种基于点击日志的新广告点击率预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100250361A1 (en) * 2009-03-30 2010-09-30 Kendra Torigoe System and method for providing advertising server optimization for online computer users
CN103310003A (zh) * 2013-06-28 2013-09-18 华东师范大学 一种基于点击日志的新广告点击率预测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
在线广告中实时竞价机制研究与算法实现;朱丽辉;《中国优秀硕士学位论文全文库》;20151031;全文 *
在线广告中高层特征表示及点击率预测方法研究;邵迪;《中国优秀硕士学位论文全文库》;20150228;全文 *
基于多类别特征的在线广告点击率预测研究-----以腾讯搜索为例;刘唐;《中国优秀硕士学位论文全文库》;20131130;全文 *

Also Published As

Publication number Publication date
CN105654198A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105654198B (zh) 具有最优阈值筛选的品牌广告效果优化的方法
CN105631711A (zh) 一种广告投放方法及装置
US8893012B1 (en) Visual indicator based on relative rating of content item
CN106156878B (zh) 广告点击率矫正方法及装置
CN103927675B (zh) 判断用户年龄段的方法及装置
JP6547070B2 (ja) プッシュ情報粗選択ソーティングの方法、デバイス、およびコンピュータ記憶媒体
CN105678587B (zh) 一种推荐特征确定方法、信息推荐方法及装置
CN102708131B (zh) 将消费者自动分类到微细分中
CN105590240A (zh) 一种品牌广告效果优化的离散计算方法
US20130275212A1 (en) Determining whether to provide an advertisement to a user of a social network
CN107526810B (zh) 建立点击率预估模型的方法及装置、展示方法及装置
WO2015120798A1 (en) Method for processing network media information and related system
CN105608604A (zh) 一种品牌广告效果优化的连续计算方法
CN107346496A (zh) 目标用户定向方法及装置
CN106484777A (zh) 一种多媒体数据处理方法以及装置
CN107545444B (zh) 一种业务广告数据推荐方法以及装置
US20190050890A1 (en) Video dotting placement analysis system, analysis method and storage medium
CN108153791A (zh) 一种资源推荐方法和相关装置
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
US20230214863A1 (en) Methods and apparatus to correct age misattribution
CN106777282B (zh) 相关搜索的排序方法和装置
WO2011094428A1 (en) Evaluating statistical significance of test statistics using placebo actions
CN107153656A (zh) 一种信息搜索方法和装置
WO2020135642A1 (zh) 一种基于生成对抗网络的模型训练方法及设备
CN106354867A (zh) 多媒体资源的推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200317

Address after: 310006 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co.,Ltd.