CN108090788A

CN108090788A - 基于时间信息集成模型的广告转化率预估方法

Info

Publication number: CN108090788A
Application number: CN201711407380.0A
Authority: CN
Inventors: 严建峰; 周捷; 杨璐
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-05-29
Anticipated expiration: 2037-12-22
Also published as: CN108090788B

Abstract

本发明涉及一种能够在历史数据时间线上提升转化率效果的集成学习方法，通过对历史数据按固定时间间隔分段，对于每个时间间隔上的历史数据分别训练多个不相关、结构相异的模型进行模型集成。将上述集成模型的结果作为新特征加入到离预测目标最近的时间间隔数据上，进行第二次集成学习模型的训练。由于每个时间间隔数据之间的划分独立性以及每个时间间隔时间数据内部模型的独立性，可以充分利用计算资源进行并行计算，充分利用数据同时极大缩短训练时间，也可以方便地进行模型实时更新。

Description

基于时间信息集成模型的广告转化率预估方法

技术领域

本发明涉及一种计算机技术，尤其是基于时间信息集成模型的互联网广告转化率预估方法，能够根据广告系统的历史广告转化数据对广告转化率进行预估，协助实施广告的精准投放。

背景技术

互联网广告就是通过网络广告平台在网络上投放广告。利用网站上的广告横幅、文本链接、多媒体的方法，在互联网刊登或发布广告，通过网络传递到互联网用户的一种高科技广告运作方式。计算广告是互联网最重要的商业模式之一，广告投放效果通常通过曝光、点击和转化各环节来衡量，其中广告转化率是最能反映广告本身效果和商业价值实现的度量。广告转化预估不论是训练速度,还是训练方式，都需要一套可扩展的大规模并行训练系统来更好的支持。常用的训练算法模型有LR(Logistic Regression，逻辑回归)、FM(Factorization Machine，因子分解机)、FFM(Field-aware Factorization Machine，场感知因子分解机)、DNN(Deep Neural Networks，深度神经网络)、GBDT+LR(GradientBoosting Decision Tree+Logistic Regression，梯度提升决策树+逻辑回归)、FTRL(Follow-the-regularized-Leader)、Wide and Deep Learning模型等。

传统技术存在以下技术问题：

广告转化率预估的核心问题就是大数据量训练和模型快速迭代更新。在现有体量的广告数据下，训练算法支持并行化是必不可少的要求。

逻辑回归(Logistic Regression)是最常用的机器学习算法，具有理解起来简单，易于并行化和工程化，值域区间为[0，1]等特点，很适合使用在点击率预估或者转化预估等工作。发展至今，逻辑回归的优化算法也多种多样，例如常用SGD(Stochastic GradientDescent，随机梯度下降)、LBFGS(Limited-memory BFGS)等。虽然逻辑回归简单，复杂度相对低，能够处理大量的样本，但它有很明显的缺陷，其属于线性模型，在不对特征维度多较多变换的情况下，其表征能力会比较差，而广告数据的内在模型更加趋向于一个非线性的状态。

业内使用较多是谷歌提出的FTRL算法。FTRL算法核心是一种在线的逻辑回归，在原始演算法上加入正则化和自适应学习。它能解决传统SGD中无法得到稀疏性的问题,在稀疏性上能够和传统的优化算法达到同样的程度。另外,FTRL对每一维特征维护一个学习率,能够得到更佳的模型。其缺点也比较明显，需要人工构造、选择特征，在大体量数据的情况下，人工特征的工作量会是十分巨大的，消耗的计算资源也是巨大的。

在深度学习火热的今天，DNN深度神经网络在广告转化率预估也能取得较好的效果，优点就是拟合能力强，在样本量足够的情况下会取得较好的效果。但其缺点同样也很明显，计算十分复杂，工程化和实时化的难度比较大，占用大量的计算资源。

总的来说，在广告转化率预估这项任务中，上述的这些算法都算主流，但目前主要做法大多是将大量的历史数据直接导入这些算法去训练对应模型，或者加上简单的模型组合，如GBDT+LR算法。这样造成的一个问题就是广告历史数据时间跨度很长，每天产生的数据量很多，导致历史数据量巨大，人工特征花费时间会很长，训练模型的时间也会很长。同时，由于广告存在失效性，比如说广告主刚推出的广告推给用户的可能性相比于推出很久的广告来说概率会大得多。因此，在对未来某一段时间的广告进行转化率预估时，往往最近几天的数据会起到很大的作用，时间越往前推，影响越小。历史数据增长带来的模型效果提升远不能平衡历史数据增长带来的训练时间增加的代价，但要是直接抛除这部分时间间隔很久的历史数据又会导致数据量减小降低模型效果，现有的广告转化率预估算法不能使历史数据价值达到最大化。

发明内容

本发明的目的是提出一种能够在历史数据时间线上提升转化率效果的的集成学习方法，通过对历史数据按固定时间间隔分段，对于每个时间间隔上的历史数据分别训练多个不相关、结构相异的模型进行模型集成。将上述集成模型的结果作为新特征加入到离预测目标最近的时间间隔数据上，进行第二次集成学习模型的训练。由于每个时间间隔数据之间的划分独立性以及每个时间间隔时间数据内部模型的独立性，可以充分利用计算资源进行并行计算，充分利用数据同时极大缩短训练时间，也可以方便地进行模型实时更新。

一种基于时间信息集成模型的广告转化率预估方法，包括：

将广告历史数据按照固定时间间隔划分为不少于3个数据集，最新的两个时间间隔数据作为训练集和测试集，其余的时间间隔数据用做时间特征模型的训练；其中，时间特征模型利用集成学习中的Bagging并行式集成学习方法；

把其余的时间间隔数据用做时间特征模型的训练输出的结果和训练集组成第一新特征集；

对第一新特征集利用步骤“将广告历史数据按照固定时间间隔划分为不少于3个数据集，最新的两个时间间隔数据作为训练集和测试集，其余的时间间隔数据用做时间特征模型的训练；其中，时间特征模型利用集成学习中的Bagging并行式集成学习方法；”中相同的集成学习中的Bagging并行式集成学习方法训练；

把其余的时间间隔数据用做时间特征模型的训练输出的结果和训练集特征组成第二新特征集；

把第二新特征集输入到步骤“对第一新特征集利用步骤“将广告历史数据按照固定时间间隔划分为不少于3个数据集，最新的两个时间间隔数据作为训练集和测试集，其余的时间间隔数据用做时间特征模型的训练；其中，时间特征模型利用集成学习中的Bagging并行式集成学习方法；”中相同的集成学习中的Bagging并行式集成学习方法训练；”训练出来的模型，输出的结果作为预测结果。

在另外的一个实施例中，步骤“将广告历史数据按照固定时间间隔划分为不少于3个数据集，最新的两个时间间隔数据作为训练集和测试集，其余的时间间隔数据用做时间特征模型的训练；其中，时间特征模型利用集成学习中的Bagging并行式集成学习方法；”中将广告历史数据按照固定时间间隔划分为9个数据集。

在另外的一个实施例中，步骤“把第二新特征集输入到步骤“对第一新特征集利用步骤“将广告历史数据按照固定时间间隔划分为不少于3个数据集，最新的两个时间间隔数据作为训练集和测试集，其余的时间间隔数据用做时间特征模型的训练；其中，时间特征模型利用集成学习中的Bagging并行式集成学习方法；”中相同的集成学习中的Bagging并行式集成学习方法训练；”训练出来的模型，输出的结果作为预测结果”中，所述预测结果是采用加权平均法或者中位数法输出的。

在另外的一个实施例中，所述Bagging并行式集成学习方法中利用的基学习器包括逻辑回归、随机森林、梯度提升树和深度神经网络。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任意一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任意一项所述方法的步骤。

上述基于时间信息集成模型的广告转化率预估方法的有益效果：

在互联网广告转化率预估系统的传统做法上通常是通过人工选择特征为主，模型生成特征为辅，但在如今大数据时代，广告系统的历史数据量巨大，对全部数据进行人工选择特征显然是很费时的。所以，本发明提出的将历史数据分割的方法，让人在局部历史数据上进行特征选择成为可能，同时由于样本的同分布特性，部分数据局部特征也能很好的用到其余数据上。在通过模型对历史数据并行训练，得到的历史输出结果就可以看成是对历史数据的一种模型抽象特征，将这些抽象特征加入到和预测数据集合相邻的训练数据集中，就可以让这训练数据携带历史信息，达到加速训练的同时不损失时间线上的有价值的数据，从而提升模型精度。

时间信息集成模型还有一个针对随机森林模型的细化做法，将随机森林中的每一个叶子结点编号，输入的每个样本都将落到一个叶子结点上，将对应叶子节点的编号也作为第一层集成学习模型产生的特征加入到训练集特征中，整体模型的效果将得到进一步提高。

通过在某广告平台连续两周的广告系统数据上的基于本发明时间信息集成模型上的训练，在使用随机森林、梯度提升树、神经网络以及逻辑回归四种子模型的情况下，通过数据并行、模型训练并行、模型预测并行，在最终训练速度有3倍提升，评价指标logloss降低近7个千分点。

附图说明

图1为本申请实施例提供的一种基于时间信息集成模型的广告转化率预估方法的时间线的示意图。

图2为本申请实施例提供的一种基于时间信息集成模型的广告转化率预估方法的第一层集成模型的示意图。

图3为本申请实施例提供的一种基于时间信息集成模型的广告转化率预估方法的第二层集成模型的示意图。

图4为本申请实施例提供的一种基于时间信息集成模型的广告转化率预估方法的第二新特征集输入到第二层集成模型的示意图。

图5为本申请实施例提供的一种基于时间信息集成模型的广告转化率预估方法的集成学习的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一种基于时间信息集成模型的广告转化率预估方法，包括：

下面介绍一个具体的应用场景：

本发明首先使用算法框架是使用两层集成学习(ensemble leaning)中的Bagging集成方法，每一个Bagging中的基学习器可以有很多种，可以根据基学习器在数据集上面的表现来选取合适的模型。同时模型数量级必须要保证实际工业应用可部署以及模型架构具有健壮性。常用的基学习器有逻辑回归(LR)、随机森林(RF)、梯度提升树(GBDT)、深度神经网络(NN)和支持向量机等。

集成学习，简称ensemble learning，通过构建并合并多基学习器来完成学习任务，有时也被称为多分类系统。集成学习通过将多个基学习器进行组合，常常可以获得币单一学习器显著优越的泛化性能，这对弱学习器尤为明显，这边的弱学习器常指泛化性能略优于随机猜测的学习器。图5为本申请实施例提供的一种基于时间信息集成模型的广告转化率预估方法的集成学习的示意图。根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类，即个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习之间不存在强依赖关系、可同时生成的并行化方法；前者的代表是Boosting方法，后者的代表是Bagging方法。

Bagging，bootstrap aggregating的缩写。让该学习算法训练多轮，每轮的训练集由从初始的训练集中随机取出的n个训练样本组成，某个初始训练样本在某轮训练集中可以出现多次或根本不出现，训练之后可得到一个预测函数序列(h₁，h₂，……h_n)。最终的预测函数H对分类问题采用投票方式，对回归问题采用简单平均方法对新样本进行判别。Bagging可以有效缓解机器学习中的减少机器学习误差中的方差成分。

线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。

逻辑回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型。逻辑回归的因变量可以是二分类，也可以是多分类。主要用来预测在不同的自变量情况下发生某种情况的概率，通常的求解步骤就是寻找假设函数、构造损失函数、使损失函数最小得到对应参数。

随机森林，是Bagging的一种扩展变体，用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类(对于分类算法)，然后看看哪一类被选择最多，就预测这个样本为那一类。具有训练速度快、容易做成并行化、实现简单等特点。

梯度提升树，简称GBDT，是一种迭代的决策树算法，属于Boosting一族，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。GBDT中的树是回归树(不是分类树)，GBDT用来做回归预测，调整后也可以用于分类。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。普通GBDT，由于是属于Boosting算法，无法直接进行并行计算。XGBoost很好地解决了这个缺陷。

XGBoost是大规模并行提升树算法的工具，它是目前最快最好的开源提升树算法工具包，比常见的工具包快10倍以上。其里面的基学习器除了可以使用决策树，也可用线性分类器。传统GBDT在优化时只用到一阶导数信息，XGBoost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。在代价函数里加入了正则项，用于控制模型的复杂度。支持列抽样，支持特征粒度上的并行运算。

神经网络，前馈神经网络是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层.各层间没有反馈。是目前应用最广泛、发展最迅速的人工神经网络之一。研究从20世纪60年代开始，目前理论研究和实际应用达到了很高的水平。神经网络也是当下最火热的深度学习的基本组成部分。

图1中时间线代表所有的历史数据，X1到X7代表将历史数据按固定间隔分为了7份数据，在保证每一份数据的数量都不太少的前提下历史数据可以划分为任意份，图2中写为7份只是一种示例选择。最后两个时间间隔的数据分别为训练集和测试集。这边训练集中的数据是最终模型最后用来训练时直接使用训练的数据，X1到X7的数据是用来为训练集生成新的时间特征的数据。对于X1到X7中的每一份数据，独立进行一个集成模型组合训练，即时间特征模型。每个时间特征模型里可以包含若干个不相干模型，图2中选择了4个模型作为示例。每一份数据训练完对应的模型将被保存下来，训练集将会通过该模型进行预测，输出的四个得分，也就是预测为正例的概率将会作为新特征加入到训练集原特征集中。每一份数据对应四个独立的模型，每一份数据之间也是独立的，所以这些子模型都是可以同时并行训练的，大大节省最后预测的时间。

图3中的第二层集成模型就是最终用于预测的模型，这一个集成模型里面同样也是有四个独立的模型，可以并行训练，模型的输入是原始训练集特征和训练集数据输入到第一层时间特征模型中产生的新特征拼接而成，输出的投票策略可以选择四个模型输出的加权平均，也可以选择图中简单的中位数方法，可以按实际效果进行选择。显然，当有新数据时，只要训练新出现的数据即可，时间复杂度大大降低。

第一步：将所有数据等间隔划分为N份数据【举例假设N为9】，标志为X1、X2、…、X7、X8、X9。其中X1-X7为历史数据，X8为当前训练数据，X9为需要测试数据，其中X1-X8的真实结果都是知道的，X9是未知的，所以需要预测X9的结果。X1-X7的数据用来第一层模型的训练(图2)，每一份数据模型训练完输出M个分数【举例假设M为4】。第一层最后总共会得到7*4个分数【7份数据，每份数据产出4个分数】

第二步：将第一步产生的7*4个分数拼接到X8和X9，X8用来训练，X9用来测试。【例如：原始X1-X9的数据格式为100*10的矩阵，就是每一份数据为一张100行10列的表格，第一步分数拼接到X8和X9之后，X8和X9的数据格式变为100*38的矩阵，10+7*4＝38，相当于表格从10列扩充到了38列】

第三步：将第二步得到的新的X8(第一新特征集)和X9(第二新特征集)，X8用来训练模型，X9是我们要预测的未来数据。图3中输入的是X8，经过四个模型训练后输出的四个分数取中位数就是我们模型对当前X8数据的训练结果【这个结果可以和X8的真实结果进行比较来衡量训练的好坏情况】。预测的时候，只要像图4那样输入X9即可，输出的结果就是我们当前对未来数据X9的预测结果【这个结果就是我们想要的东西】。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于时间信息集成模型的广告转化率预估方法，其特征在于，包括：

把其余的时间间隔数据用做时间特征模型的训练输出的结果和训练集组成所述第一新特征集；

2.根据权利要求1所述的基于时间信息集成模型的广告转化率预估方法，其特征在于，步骤“将广告历史数据按照固定时间间隔划分为不少于3个数据集，最新的两个时间间隔数据作为训练集和测试集，其余的时间间隔数据用做时间特征模型的训练；其中，时间特征模型利用集成学习中的Bagging并行式集成学习方法；”中将广告历史数据按照固定时间间隔划分为9个数据集。

3.根据权利要求1所述的基于时间信息集成模型的广告转化率预估方法，其特征在于，步骤“把第二新特征集输入到步骤“对第一新特征集利用步骤“将广告历史数据按照固定时间间隔划分为不少于3个数据集，最新的两个时间间隔数据作为训练集和测试集，其余的时间间隔数据用做时间特征模型的训练；其中，时间特征模型利用集成学习中的Bagging并行式集成学习方法；”中相同的集成学习中的Bagging并行式集成学习方法训练；”训练出来的模型，输出的结果作为预测结果”中，所述预测结果是采用加权平均法或者中位数法输出的。

4.根据权利要求1所述的基于时间信息集成模型的广告转化率预估方法，其特征在于，所述Bagging并行式集成学习方法中利用的基学习器包括逻辑回归、随机森林、梯度提升树和深度神经网络。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-4中任意一项所述方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4任意一项所述方法的步骤。