CN112258223B

CN112258223B - 一种基于决策树的营销广告点击的预测方法

Info

Publication number: CN112258223B
Application number: CN202011090944.4A
Authority: CN
Inventors: 项亮; 裴智晖
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-05-18
Anticipated expiration: 2040-10-13
Also published as: CN112258223A

Abstract

一种基于决策树的营销广告点击的预测方法，包括数据预处理步骤、前馈神经网络模型的构建步骤、特征嵌入步骤和GBDT模型的构建步骤、最终预测模型的验证的步骤和对营销活动点击的预测步骤；用户最终预测模型选择为终预测模型为前馈神经网络模型+GBDT预测模型的结合，并在对营销活动点击的预测步骤采用用户预测模型对拟互联网产品营销的用户群体进行点击意愿度预测。因此，本发明对新用户点击的预测效果要好于单独使用神经网路和GBDT的预测效果，对于用户是否点击营销广告的预测效果总体表现更好。

Description

一种基于决策树的营销广告点击的预测方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种基于决策树的营销广告点击的预测方法。

背景技术

随着互联网行业市场竞争的日益激烈，应用大数据已经成为互联网营销的新方式，即互联网运营商大数据精准获客系统应运而生。大数据智能获客系统，以运营商大数据库为中心，直接抓取符合自定义条件用户的联系方式，直接与客户进行沟通，降低企业获客成本，提高企业利润。

目前，往往通过用户画像和用户行为特征来进行对广告营销行为的预测，比较常用的机器学习算法可以分为以线性模型为代表的逻辑回归(Logistic regression，LR)和因子分解机(Factorization Machine，FM)，以及以梯度提升决策树(Gradient BoostingDecision tree,GBDT)。

然而，上述两类算法都有一些固有的缺点存在：

①.线性模型如逻辑回归和因子分解机擅长处理大规模的稀疏特征，这样能够让模型更快的收敛且计算效率更高，因此如果原始特征既有稀疏类别特征又有连续特征，一般的处理方式是将连续特征进行数值分桶，拆分成互不相交的子空间，变为多个类别特征。但是这么做一个是合理的分桶不太容易寻找，如果拆分过细将导致特征过于稀疏，而拆分太粗则会丢失原有的连续特征信息。

②.以GBDT为代表的决策树模型在既有类别特征又有连续特征的时候，会倾向于选择连续特征作为分裂点，这将导致原有的类别特征的信息并不能被有效利用。

因此，如何解决这种上述两种特征都存在的问题，是提升模型性能的一个关键点。

发明内容

本发明的目的在于克服现有技术存在的上述缺陷，提供一种基于决策树的营销广告点击的预测方法。

为实现上述目的，本发明的技术方案如下：

一种基于决策树的营销广告点击的预测方法，其包括数据预处理步骤S1、前馈神经网络模型的构建步骤S2、特征嵌入步骤S3和GBDT模型的构建步骤S4和最终预测模型的验证的步骤S5；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取用户的原始信息，并从所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户访问DPI和用户访问DPI频次；其中，所述任务批次号表示一个日期时间段中用户的原始信息，所述用户访问DPI和用户访问DPI频次为每一个任务批次号为计量单位；

步骤S12：依次处理具有所述任务批次号的所有批次中的所述原始特征信息，对所述用户手机号码归属地特征进行One-hot编码处理；其中，所述One-hot编码处理包括：

依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开，以及在所述任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为用户访问DPI与DPI的频次的关系特征；

步骤S13：将所有所述任务批次号按照升序进行排序，得到所有所述任务批次号的排序；其中，所述任务批次号的升序是同日期时间的远近成正比，所述日期时间越近，所述任务批次号越大；

所述前馈神经网络模型的构建步骤S2包括如下步骤：

步骤S21：选择所述任务批次号最大的任务批次中的数据作为验证集，剩余的所述任务批次号的数据作为训练集；构建前馈神经网络模型并初始化所述前馈神经网络模型的参数，所述前馈神经网络模型包括输入层、N层隐藏层和输出层，所述输入层神经元节点数和输入数据特征数保持一致，所述输出层使用sigmoid函数作为激活函数，将所述输出层的输出值为预测概率，所述预测概率为0和1之间的值；其中，所述N大于等于2；

步骤S22：以用户ID为样本单位，将所述训练集中的每一个样本的所述归属地特征和/或所述用户访问DPI是否点击的特征作为所述前馈神经网络模型的输入，将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述前馈神经网络模型的参考输出，对所述前馈神经网络模型进行训练和验证，得到参数优化后的所述前馈神经网络模型；

所述特征嵌入步骤S3包括：

将训练好的前馈神经网络模型的第一个隐藏层各神经元的权重取出，依次将所有训练集中样本构成一个维度为输入层特征数*第一个隐藏层各神经元个数的权重矩阵，得到将特征嵌入后的样本数*第一个隐藏层各神经元个数的样本矩阵；其中，特征嵌入后的所述样本矩阵的特征为连续特征；

所述GBDT模型的构建步骤S4，包括：

提供所需建立的GBDT预测模型，将特征嵌入后的所述训练集中的每一个新的样本矩阵的连续特征作为所述GBDT预测模型的输入，将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出；对所述GBDT预测模型进行训练和验证，得到训练好的所述GBDT预测模型；

所述最终预测模型的验证的步骤S5，包括：

步骤S51：确定所述前馈神经网络模型+所述GBDT预测模型为所述最终预测模型；

步骤S52：依次将所述验证集中的每一个样本的所述归属地特征和/或所述用户访问DPI是否点击的特征作为训练好的所述前馈神经网络模型的输入，获得所述前馈神经网络模型预测输出的第一预测概率值；

步骤S53：将训练好的前馈神经网络模型的第一个隐藏层各神经元的权重取出，依步骤次将所有验证集中样本构成一个维度为输入层特征数*第一个隐藏层各神经元个数的权重矩阵，得到将特征嵌入后的样本数*第一个隐藏层各神经元个数的样本矩阵；

步骤S54：将特征嵌入后的所述验证集中的每一个新的样本矩阵的连续特征作为所述GBDT预测模型的输入，得到所述GBDT预测模型输出的第二预测概率值；

步骤S55：将的第一预测概率值和的第二预测概率值做加权平均，得到第三预测概率值；

步骤S56：基于所述第三预测概率值，确定所述最终预测模型的精度。

进一步地，所述基于决策树的营销广告点击的预测方法还包括对营销活动点击的预测步骤S6，所述步骤S6具体包括：

步骤S61：获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息，并从所述用户原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、当前任务批次号、用户访问DPI和用户访问DPI频次；其中，所述用户访问DPI和用户访问DPI频次以本次任务批次号为计量单位；

步骤S62：对所述当前任务批次号的所述原始特征信息，按所述用户手机号码归属地特征进行One-hot编码处理；其中，所述One-hot编码处理包括：

按所述当前任务批次号将所有不同的用户访问DPI作为单独的特征展开，以及在所述当前任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征；

步骤S63：依次将所述当前任务批次号的每一个样本的所述归属地特征和/或所述用户访问DPI是否点击的特征作为训练好的所述前馈神经网络模型的输入，获得所述前馈神经网络模型预测输出的第一预测概率值；

步骤S64：取出所述前馈神经网络模型的第一个隐藏层各神经元的权重值，依次将所述当前任务批次号的每一个样本构成一个维度为输入层特征数*第一个隐藏层各神经元个数的权重矩阵，得到将特征嵌入后的样本数*第一个隐藏层各神经元个数的样本矩阵；

步骤S65：将特征嵌入后的将所述当前任务批次号的每一个新的样本矩阵的连续特征作为所述GBDT预测模型的输入，得到所述GBDT预测模型输出的第二预测概率值；

步骤S66：将的第一预测概率值和的第二预测概率值做加权平均处理，得到最终的预测概率值，并将加权后的输出值结果作为所述前馈神经网络模型+所述GBDT预测模型的输出值。

进一步地，所述S56还包括步骤S57，所述步骤S57包括：

根据所述最终预测模型的精度调整所述GBDT预测模型的参数，得到进一步优化后的所述GBDT预测模型。

进一步地，所述前馈神经网络模型输出值的权重为0.2，所述GBDT预测模型输出值的权重为0.8。

进一步地，所述的N为4，所述前馈神经网络模型包括输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层；每个所述隐藏层后面都做批量归一化处理。

进一步地，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层的神经元数量分别为256、128、64和32个，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层使用梯度泄露的ReLU激活函数，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层做随机丢弃处理。

进一步地，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层的丢弃概率分别为0.1，0.08，0.05和0.025。

进一步地，所述前馈神经网络模型的每批训练样本量为1024个样本，训练总轮次设为25轮。

进一步地，所述的基于决策树的营销广告点击的预测方法还包括：

步骤S67：根据实际投放需求，选择全部或部分所述前馈神经网络模型+所述GBDT预测模型输出值超过某一阈值的用户进行精准营销的任务。

进一步地，所述的基于决策树的营销广告点击的预测方法，其中，所述训练集的样本数为M1，所述验证集的样本数为M2，M1:M2的比率为8:2。

从上述技术方案可以看出，本发明的基于决策树的营销广告点击的预测方法，针对运营商提供数据中大量的类别特征和连续特征并存的情况，先将连续特征进行0-1规范化，再把规范化后的连续特征和类别特征进行合并，一起放入一个预先设定好的多层神经网络中进行训练。模型训练后除了能得到一个预测概率之外，还可以将第一个隐藏层的权重取出，权重取出后对原始的数据进行矩阵内积操作，即将数据从原始的特征空间降维到维度与第一个隐藏层神经元数量一致的连续特征，再将该连续特征放入GBDT模型中进行训练，这样即解决了稀疏特征问题又不丢失任何连续特征的信息。

附图说明

图1所示为本发明实施例中基于决策树的营销广告点击的预测方法的流程示意图

图2所示为本发明实施例中前馈神经网络模型结构示意图

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，特对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

需要说明的是，在以下本发明的具体实施方式中，该基于决策树的营销广告点击的预测方法可以包括数据预处理步骤、模型建立步骤和模型使用步骤，与传统的基于梯度提升决策树的算法相比，本发明能提供用户对广告点击意愿进行直接预测的途径，也适合处理具有大规模稀疏特征的数据。

请参阅图1，图1所示为本发明实施例中基于决策树的营销广告点击的预测方法的流程示意图。如图1所示，基于决策树的营销广告点击的预测方法，其包括数据预处理步骤S1、前馈神经网络模型的构建步骤S2、特征嵌入步骤S3和GBDT模型的构建步骤S4和最终预测模型的验证的步骤S5；最后还包括对营销活动点击的预测步骤S6。其中，图中虚线框中的步骤S2、步骤S3、步骤S4和步骤S5为最终预测模型建立步骤。

在本发明的实施例中，最终预测模型为前馈神经网络模型+GBDT预测模型。数据预处理步骤非常重要，所述数据预处理步骤S1包括如下步骤：

步骤S11：获取用户的原始信息，并从所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID(id)、用户手机号码归属地(location)、任务批次号(batch number)、用户访问DPI(dpi)和用户访问DPI频次(dpi frequency)；其中，所述任务批次号表示一个日期时间段中用户的原始信息，所述用户访问DPI和用户访问DPI频次为每一个任务批次号为计量单位。

步骤S12：依次处理具有所述任务批次号的所有批次中的所述原始特征信息，对所述用户手机号码归属地特征进行One-hot编码处理(One-hot编码是一种数据预处理常用方法，将类别特征按照不同取值进行0/1映射为新的特征)；其中，所述One-hot编码处理包括：

依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开，以及在所述任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征。

具体地，可以认为，一个任务批次号(batch number)对应一天的用户数据，用户的原始信息中同一个任务批次号(batch number)中的用户可能会有重复，因为，同一个用户可能会访问多个用户访问DPI。因此，需要将所有不同的用户访问DPI展开作为单独的特征，如果一个用户访问过该用户访问DPI，则在该特征下，当前用户的值为1，否则为0。

同理，将用户访问DPI访问频次也按照所有不同的用户访问DPI展开为用户访问DPI与用户访问DPI频次的特征，若用户访问某用户访问DPI共m次则该特征下当前用户的值为m，否则为0。

请参阅下表1，表1为预处理之前的原始数据的表格描述，以同一批次的数据为例，可简略的表示如下：

预处理之前的原始数据：

表1：

用户id	批次号	访问dpi	dpi访问频次	归属地	是否点击
						用户A	#1	dpi 1	5	HN	1
用户A	#1	dpi 3	1	HN	1
						用户B	#1	dpi 2	10	SH	0
用户C	#1	dpi 3	3	JS	1

请参阅下表2，表2为预处理之后的数据的表格描述，以同一批次的数据为例，可简略的表示如下：

表2

步骤S13：将所有所述任务批次号按照升序进行排序，得到所有所述任务批次号的排序；其中，所述任务批次号的升序是同日期时间的远近成正比，所述日期时间越近，所述任务批次号越大。

经过上述处理后，每一个任务批次内的用户ID将是唯一值；然后，将所有批次的用户数据都做上述处理，并按照批次进行用户方向合并，按照任务批次号(batch number)升序进行排序，任务批次的日期越新则任务批次号(batch number)越大，可以得到处理好的样本。

经过上述数据预处理步骤完成后，就可以选择最后一个批次的数据作为验证样本集来进行模型参数的选择，除此之外的所有样本组成训练样本集用来建立模型，即训练样本集用来进行模型训练的样本集合；验证样本集用来进行模型参数选择的样本集合。

在本发明实施例中的发明思路是一种基于决策树的营销广告点击的预测方法，其用户预测模型为所述前馈神经网络模型+所述GBDT预测模型，即所述前馈神经网络模型训练后除了能得到一个预测概率之外，还可以将第一个隐藏层的权重取出，权重取出后对原始的数据进行矩阵内积操作，即将数据从原始的特征空间降维到维度与第一个隐藏层神经元数量一致的连续特征，再将该连续特征放入GBDT模型中进行训练，这样即解决了稀疏特征问题又不丢失任何连续特征的信息。因此，本发明对新用户点击的预测效果要好于单独使用神经网路和GBDT的预测效果，对于用户是否点击营销广告的预测效果总体表现更好。

在本发明的实施例中，用户最终预测模型其实是包括了两个模型，一个是前馈神经网络模型，另一个是GBDT预测模型，也就是说，用户预测模型为前馈神经网络模型+GBDT预测模型的组合。

所述前馈神经网络模型步骤S2包括如下步骤：

步骤S21：选择所述任务批次号最大的任务批次中的数据作为验证集，剩余的所述任务批次号的数据作为训练集；构建前馈神经网络模型并初始化所述前馈神经网络模型的参数，所述前馈神经网络模型包括输入层、N层隐藏层和输出层，所述输入层神经元节点数和输入数据特征数保持一致，所述输出层使用sigmoid函数作为激活函数，将所述输出层的输出值为预测概率，所述预测概率为0和1之间的值；其中，所述N大于等于2。

步骤S22：以用户ID为样本单位，将所述训练集中的每一个样本的所述归属地特征和/或所述用户访问DPI是否点击的特征作为所述前馈神经网络模型的输入，将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述前馈神经网络模型的参考输出，对所述前馈神经网络模型进行训练和验证，得到参数优化后的所述前馈神经网络模型。

进一步地，隐藏层的层数N可以为4，请参阅图2，图2所示为本发明实施例中前馈神经网络模型结构示意图。如图所示，所述前馈神经网络模型包括输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层；每个所述隐藏层后面都做批量归一化处理。所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层的神经元数量分别为256、128、64和32个，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层使用梯度泄露的ReLU激活函数，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层做随机丢弃处理。所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层的丢弃概率分别为0.1，0.08，0.05和0.025。

较佳地，在样本训练中，每批训练样本量为1024个样本，训练总轮次设为25轮；并且可以使用验证样本进行早停机制的使用，窗口大小为1，学习率为0.0015，不做权重衰减。

在本发明的实施例中，还需要包括所述特征嵌入步骤S3，将训练好的前馈神经网络模型的第一个隐藏层各神经元的权重取出，依次将所有训练集中样本构成一个维度为输入层特征数*第一个隐藏层各神经元个数的权重矩阵，得到将特征嵌入后的样本数*第一个隐藏层各神经元个数的样本矩阵；其中，特征嵌入后的所述样本矩阵的特征为连续特征。

也就是说，将训练好的前馈神经网络模型的第一个隐藏层各神经元的权重取出，构成一个维度为输入层特征数*256的权重矩阵，再将原始数据矩阵左乘该权重矩阵，就能够得到样本数*256的新的样本矩阵，此时每个样本都相当于从原始的特征空间向256维的特征空间进行了投影，投影之后的特征全部都变成了连续特征，此过程即嵌入过程。

上述步骤完成后，就可以执行所述GBDT模型的构建步骤S4，即提供所需建立的GBDT预测模型，将特征嵌入后的所述训练集中的每一个新的样本矩阵的连续特征作为所述GBDT预测模型的输入，将所述训练集中的每一个样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出；对所述GBDT预测模型进行训练和验证，得到训练好的所述GBDT预测模型。

上述两个模型完成后，接下来，就可以执行所述最终预测模型的确认和验证的步骤S5，包括：

也就是说，在本发明的实施例中，通过将特征嵌入后的训练数据构建GBDT模型并得到相应的预测输出。此时GBDT使用的全部是连续特征，不存在类别特征。之后将之前得到的前馈神经网络的模型预测输出和GBDT的模型输出做加权平均，加权平均之后得到的即本方法的最终预测模型的仿真输出(第三预测概率值)。

在本发明的实施例中，所述S56还包括步骤S57，所述步骤S57包括：根据所述最终预测模型的精度调整所述GBDT预测模型的参数，得到进一步优化后的所述GBDT预测模型。

到此为止，本发明实施例中的最终预测模型就建立起来啦，用户预测模型选择为所述前馈神经网络模型+所述GBDT预测模型的结合。

在本发明的实施例中，所述基于决策树的营销广告点击的预测方法所包括对营销活动点击的预测步骤S6，其可以具体包括：

上述步骤主要是对拟互联网产品营销的用户群体进行特征提取，后续还需要对所述当前任务批次号的所述原始特征信息进行预处理，该预处理的步骤S62如下：

按所述当前任务批次号将所有不同的用户访问DPI作为单独的特征展开，以及在所述当前任务批次号中将DPI访问频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征。

当然，在本发明的一些较佳实施例中，所述的基于决策树的营销广告点击的预测方法，还可以包括：

结果表明，通过该用户预测模型，可以将大量的低意愿用户直接从投放目标中筛出，从而节省大量的营销成本，实现利润率的增加。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于决策树的营销广告点击的预测方法，其特征在于，包括数据预处理步骤S1、前馈神经网络模型的构建步骤S2、特征嵌入步骤S3和GBDT模型的构建步骤S4和最终预测模型的验证形成的步骤S5；

所述数据预处理步骤S1包括如下步骤：

所述前馈神经网络模型的构建步骤S2包括如下步骤：

所述特征嵌入步骤S3包括：

所述GBDT模型的构建步骤S4，包括：

所述最终预测模型的验证的步骤S5，包括：

2.根据权利要求1所述基于决策树的营销广告点击的预测方法，其特征在于，还包括对营销活动点击的预测步骤S6，所述步骤S6具体包括：

3.根据权利要求1所述的基于决策树的营销广告点击的预测方法，其特征在于，所述S56还包括步骤S57，所述步骤S57包括：

4.根据权利要求2所述的基于决策树的营销广告点击的预测方法，其特征在于，所述前馈神经网络模型输出值的权重为0.2，所述GBDT预测模型输出值的权重为0.8。

5.根据权利要求1所述的基于决策树的营销广告点击的预测方法，其特征在于，所述的N为4，所述前馈神经网络模型包括输入层、第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层和输出层；每个所述隐藏层后面都做批量归一化处理。

6.根据权利要求5所述的基于决策树的营销广告点击的预测方法，其特征在于，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层的神经元数量分别为256、128、64和32个，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层使用梯度泄露的ReLU激活函数，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层做随机丢弃处理。

7.根据权利要求6所述的基于决策树的营销广告点击的预测方法，其特征在于，所述第一隐藏层、第二隐藏层、第三隐藏层和第四隐藏层的丢弃概率分别为0.1，0.08，0.05和0.025。

8.根据权利要求1所述的基于决策树的营销广告点击的预测方法，其特征在于，所述前馈神经网络模型的每批训练样本量为1024个样本，训练总轮次设为25轮。

9.根据权利要求2所述的基于决策树的营销广告点击的预测方法，其特征在于，还包括：

10.根据权利要求2所述的基于决策树的营销广告点击的预测方法，其特征在于，其中，所述训练集的样本数为M1，所述验证集的样本数为M2，M1:M2的比率为8:2。