CN112633937B

CN112633937B - 基于深度自动编码器降维结合gbdt的营销预测方法

Info

Publication number: CN112633937B
Application number: CN202011606919.7A
Authority: CN
Inventors: 项亮; 潘信法
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-10-20
Anticipated expiration: 2040-12-30
Also published as: CN112633937A

Abstract

一种基于深度自动编码器降维结合梯度提升决策树的营销预测方法，包括数据预处理步骤、数据集划分步骤、特征降维步骤、模型建立步骤、对营销活动点击的预测步骤；其通过使用深度自动编码器对从运营商处获得的用户访问DPI这一稀疏特征进行自监督非线性降维，再使用降维后的原始特征结合用户的其他特征如用户访问DPI频次和归属地等一起投入GBDT中进行建模，以期解决特征维度过高和过于稀疏对GBDT模型泛化能力及建模的内存需求的影响。因此，本发明在减少特征维度的同时，尽量减少原始特征所包含信息的损失，达到了可以对所收集的数据进行全面分析的目的。

Description

基于深度自动编码器降维结合GBDT的营销预测方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种基于深度自动编码器降维结合GBDT的营销预测方法。

背景技术

随着经济全球化和市场经济的迅速发展，在企业营销战略中广告营销活动发挥着越来越重要的作用，是企业营销组合中的一个重要组成部分。网络广告营销是借助网络营销能最大化的传播给受众人群，而且也更为精准，网络广告营销需要广告主借助网络平台投入广告给目标性客户。

梯度提升决策树是一种利用用户画像和用户行为特征来进行对广告营销行为预测的常用建模方法，但是在使用运营商数据的实际建模过程中，有如下几个问题经常会对模型的预测能力以及处理能力带来挑战：

①、从运营商初获取的用户画像和用户行为数据往往都是十分稀疏的0/1二值特征，以GBDT为代表的决策树模型在既有类别特征又有连续特征的时候，会倾向于选择连续特征作为分裂点，这将导致原有的类别特征的信息并不能被有效利用，从而造成特征浪费且影响模型的泛化能力；

②、用户的行为数据如dpi的访问作为特征时，其特征维度往往非常高，再加上庞大的用户数量，这给模型训练需要的内存空间提出了很大的要求；

③、用户画像数据和行为数据并不总是和广告点击相关，特征中存在部分冗余。因此，原始特征维度应该存在一个合理的低维特征表示。

以上几点表明，一个合理的特征处理方式是将高维的稀疏特征降维为低维的稠密特征之后，再使用GBDT进行建模。因此，降维方式是提高预测能力以及处理能力的关键。然而，传统的降维方式主要为主成分分析(PCA)，本领域技术人员清楚，PCA的降维是线性的且利用方差信息进行降维，对高维的稀疏特征并不是很适用。

发明内容

本发明的目的在于克服现有技术存在的上述缺陷，提供一种基于深度自动编码器降维结合GBDT的营销预测方法，其使用深度自动编码器对从运营商处获得的DPI访问这一稀疏特征进行自监督非线性降维，再使用降维后的特征结合用户的其他特征如用户访问DPI频次和归属地等一起投入GBDT中进行建模，以期解决特征维度过高和过于稀疏对GBDT模型泛化能力及建模的内存需求的影响。

为实现上述目的，本发明的技术方案如下：

一种基于深度自动编码器降维结合GBDT的营销预测方法，其特征在于，包括数据预处理步骤S1、数据集划分步骤S2、特征降维步骤S3和模型建立步骤S4；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取用户的原始信息，并从所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户访问DPI、用户访问DPI频次；其中，所述任务批次号表示一个日期时间段中用户的原始信息，所述用户访问DPI、用户访问DPI频次为每一个任务批次号为计量单位，所述用户访问DPI和用户的手机号码归属地特征为类别特征；

步骤S12：对类别特征进行处理；即对所述用户手机号码归属地特征和用户访问DPI进行One-hot编码处理；其中，所述One-hot编码处理包括：

依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开，以及在所述任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征；

所述数据集划分步骤S2包括如下步骤：

步骤S21：预处理之后，以用户ID为样本单位，将用户访问DPI是否点击的特征看作稀疏特征，将所述归属地特征和所述用户访问DPI频次定义为连续特征；

步骤S22：选择所述任务批次号的数据作为样本集；

所述特征降维步骤S3包括如下步骤：

步骤S31：提供深度自动编码器，所述深度自动编码器包括编码器部分、解码器部分和第二隐藏层；其中，所述编码器部分包括一个输入层和第一隐藏层，所述解码器部分包括一个输出层和第三隐藏层；

步骤S32：将所述编码器部分输入层的输入数据为将所述样本集中的每一个样本的用户访问DPI的数据，所述样本集中的相应样本的用户访问DPI的数据为所述解码器部分的参考输出，得到参数优化后的所述编码器部分；

步骤S33：将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入，得到所述第二隐藏层的输出，所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据；

所述模型建立步骤S4，包括：

步骤S41：提供所需建立的GBDT预测模型；

步骤S42：提取步骤S33得到的稠密特征数据，与连续特征数据用户访问DPI频次和用户的归属地特征按列合并，得到合并特征；

步骤S42：将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入，将样本集中的相应样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出；对所述GBDT预测模型进行训练和验证，得到训练好的所述GBDT预测模型。

进一步地，所述的基于深度自动编码器降维结合GBDT的营销预测方法还包括对营销活动点击的预测步骤S5，所述步骤S5具体包括：

步骤S51：获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息，并从所述用户原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、当前任务批次号、用户访问DPI和用户访问DPI频次；其中，所述用户访问DPI和用户访问DPI频次以本次任务批次号为计量单位；

步骤S52：对所述当前任务批次号的所述原始特征信息，按所述用户手机号码归属地特征进行One-hot编码处理；其中，所述One-hot编码处理包括：

按所述当前任务批次号将所有不同的用户访问DPI作为单独的特征展开，以及在所述当前任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征；

步骤S53：将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入，得到所述第二隐藏层的输出，所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据；

步骤S54：提取步骤S53得到的稠密特征数据，与连续特征数据用户访问DPI频次和用户的归属地特征按列合并，得到合并特征数据；

步骤S55：将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入，得到所述GBDT预测模型的输出，即得到需要预测的时间点所筛选出的用户对营销活动点击的预测结果。。

进一步地，所述解码器部分的输出层使用sigmoid函数作为激活函数，所述解码器部分的输出层的输出值为0和1之间的值；其余其它层的激活函数均使用ReLU激活函数。

进一步地，所述深度自动编码器使用Adam优化器，学习率设定为1e-3。

进一步地，在步骤S11后，还包括对所述用户的原始信息进行异常检测与处理步骤。

从上述技术方案可以看出，本发明的基于深度自动编码器降维结合GBDT的营销预测方法，其能够将原始的上百甚至上千维特征降至几十维，大大节省了建模所需的内存大小。同时，原本稀疏的特征被少量低维且稠密的特征所取代，也提升了GBDT模型的泛化能力。

附图说明

图1所示为本发明实施例中基于深度自动编码器降维结合GBDT的营销预测方法的流程示意图

图2所示为本发明实施例中构建的深度自动编码器结构的示意图

图3所示为本发明实施例中用户预测模型的建立过程示意图

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，特对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

需要说明的是，在以下本发明的具体实施方式中，该基于深度自动编码器降维结合GBDT的营销预测方法，其通过使用深度自动编码器对从运营商处获得的用户访问DPI这一稀疏特征进行自监督非线性降维，再使用降维后的原始特征结合用户的其他特征如用户访问DPI频次和归属地等一起投入GBDT中进行建模，以期解决特征维度过高和过于稀疏对GBDT模型泛化能力及建模的内存需求的影响。因此，本发明在减少特征维度的同时，尽量减少原始特征包含信息的损失，以达到可以对所收集的数据进行全面分析的目的。

与传统的利用运营商数据的数据营销领域所采用的技术相比，本发明能够将原始的上百甚至上千维特征降至几十维，大大节省了建模所需的内存大小。同时原本稀疏的特征被少量低维且稠密的特征所取代，也提升了GBDT模型的泛化能力。

请参阅图1，图1所示为本发明实施例中基于深度自动编码器降维结合GBDT的营销预测方法的流程示意图。如图1所示，基于深度自动编码器降维结合GBDT的营销预测方法，其包括数据预处理步骤S1、数据集划分步骤S2、模型建立步骤S3、模型预测步骤S4和对营销活动点击的预测步骤S5。

在本发明的实施例中，数据预处理步骤非常重要，所述数据预处理步骤S1包括如下步骤：

步骤S11：获取用户的原始信息，并从所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户访问DPI、用户访问DPI频次、用户访问时间和/或用户访问时长；其中，所述任务批次号表示一个日期时间段中用户的原始信息，所述用户访问DPI、用户访问DPI频次、用户访问时间和/或用户访问时长为每一个任务批次号为计量单位，所述用户访问DPI和用户的手机号码归属地特征为类别特征。较佳地，在步骤S11后，还包括对所述用户的原始信息进行异常检测与处理步骤。

请参阅下表1，表1为预处理之前的原始数据的表格描述，以同一批次的数据为例，预处理之前的原始数据形式如下表1所示：

在本发明的实施例中，上述的原始数据还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。

异常检测与处理：在结合业务要求的过程中，对于原始数据中的缺失值、过大值等需要进行删除、填充等处理。在数据的采集过程中，由于一般用户量为百万级别，因此，采集过程中可能出现缺失情况；若缺失量较小，一般可直接进行剔除；若无法判断缺失数据是否会影响最终的模型训练效果，则一般可根据取平均数、众数、中位数等方法来填补缺失值。

另外，在数据采集中，可能还会遇到过大值的问题，比如某用户在一天之内访问了DPI上万次，这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助，因此，也可以采用剔除的处理，或者采用填补的方法进行相应的处理。

步骤S12：对类别特征进行处理；即对所述用户手机号码归属地特征和用户访问DPI进行One-hot编码处理；其中，所述One-hot编码处理包括依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开，以及在所述任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征。

具体地，首先，可以对用户访问DPI、用户的手机号码归属地特征进行One-hot独热编码，将其展开。以用户访问DPI为例，若某个用户访问了某DPI，则记录该DPI为1，其余DPI为0；因此，若总共有10个不同的DPI，则最后会形成10列特征，并且，每一列特征中只有一个对应用户为1，其余都为0。

经过预处理后，数据形式为下表2：

用户id	批次号	dpi 1	dpi 2	dpi 3	...	dpi 1频次	dpi 2频次	dpi 3频次	...	HN	SH	...	标签
														用户A	#1	1	0	1	...	5	0	1	...	1	0	...	1
用户B	#1	0	1	0	...	0	10	0	...	0	1	...	0
														用户C	#1	0	0	1	...	0	0	3	...	0	0	...	1

经过上述数据处理步骤后，就可以执行所述数据集划分步骤S2，其具体包括如下步骤：

步骤S22：选择至少一个所述任务批次号的数据作为样本集。

在本发明的实施例中，可以将用户访问DPI特征是否点击的特征看作稀疏特征，将归属地特征和用户访问DPI频数定义为连续特征。

接下来，执行模型建立步骤S3，请参阅图3，图3所示为本发明实施例中用户预测模型的建立过程示意图。

所述特征降维步骤S3包括如下步骤：

步骤S31：提供深度自动编码器，所述深度自动编码器包括编码器部分、解码器部分和第二隐藏层(图中所示为隐藏层2)；其中，所述编码器部分包括一个输入层和第一隐藏层(图中所示为隐藏层1)，所述解码器部分包括一个输出层和第三隐藏层(图中所示为隐藏层3)；

步骤S32：将所述编码器部分输入层的输入数据为将所述样本集中的每一个样本的用户访问DPI的数据，所述样本集中的相应样本的用户访问DPI的数据为所述解码器部分的参考输出，得到参数优化后的所述编码器部分。也就是说，该深度自动编码器的输入和参考输出应该是一样的，其训练目标是使解码器的输出和编码器的输入尽可能一致，通过训练，所述样本集中的每一个样本的用户访问DPI的数据可用于优化该深度自动编码器模型各层的参数。

步骤S33：将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入，得到所述第二隐藏层的输出，所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据。

在所述特征降维步骤S31和S32中，所述解码器部分的输出层使用sigmoid函数作为激活函数，所述解码器部分的输出层的输出值为0和1之间的值；其余其它层的激活函数均使用ReLU激活函数。

具体地，请参阅图2，图2所示为本发明实施例中构建的深度自动编码器结构的示意图。如图所示，深度自动编码器的输入数据为用户的dpi访问数据(设有m和用户和n个dpi)，所述深度自动编码器使用Adam优化器，学习率设定为1e^-3，训练的批次和轮次分别可以为128和25，模型的损失定义为输出数据和对应输入数据的交叉熵损失函数。训练结束后，深度自动编码器的隐藏层2的输出(m×32)即输入数据降维后的稠密特征数据(由n维降为32维)。也就是说，通过深度自动编码器训练后，该稠密特征数据取出供后续建模使用。

接下来，就看可以执行所述的基于深度自动编码器降维结合GBDT的营销预测方法的步骤S4。

所述模型建立步骤S4，包括：

步骤S41：提供所需建立的GBDT预测模型；

上述所有处理步骤完成后，就可以通过将上述特征带入用户预测模型，能够提前在广告投放之前就筛选出意愿较高的部分用户，并对这些用户进行营销广告的精准投放。即本发明还可以包括对营销活动点击的预测步骤S5，所述步骤S5具体包括：

步骤S55：将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入，得到所述GBDT预测模型的输出，即得到需要预测的时间点所筛选出的用户对营销活动点击的预测结果。

结果表明，本用户预测模型算法选出的高意愿用户的点击率是低意愿用户点击率的10倍左右。通过该用户预测模型，可以将大量的低意愿用户直接从投放目标中筛出，从而节省大量的营销成本，实现利润率的增加。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于深度自动编码器降维结合GBDT的营销预测方法，其特征在于，包括数据预处理步骤S1、数据集划分步骤S2、特征降维步骤S3和模型建立步骤S4；

所述数据预处理步骤S1包括如下步骤：

所述数据集划分步骤S2包括如下步骤：

步骤S22：选择至少一个所述任务批次号的数据作为样本集；

所述特征降维步骤S3包括如下步骤：

所述模型建立步骤S4，包括：

步骤S41：提供所需建立的GBDT预测模型；

2.根据权利要求1所述的基于深度自动编码器降维结合GBDT的营销预测方法，还包括对营销活动点击的预测步骤S5，所述步骤S5具体包括：

3.根据权利要求1所述的基于深度自动编码器降维结合GBDT的营销预测方法，其特征在于，所述解码器部分的输出层使用sigmoid函数作为激活函数，所述解码器部分的输出层的输出值为0和1之间的值；其余其它层的激活函数均使用ReLU激活函数。

4.根据权利要求1所述的基于深度自动编码器降维结合GBDT的营销预测方法，其特征在于，所述深度自动编码器使用Adam优化器，学习率设定为1e^-3。

5.根据权利要求1所述的基于深度自动编码器降维结合GBDT的营销预测方法，其特征在于，在步骤S11后，还包括对所述用户的原始信息进行异常检测与处理步骤。