CN115293801A

CN115293801A - 一种基于召回-排序思想的针对互联网点击率的预测方法

Info

Publication number: CN115293801A
Application number: CN202210890426.3A
Authority: CN
Inventors: 项亮; 方同星
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-11-04

Abstract

一种基于召回‑排序思想的针对广告点击率的预测方法，其包括数据预处理步骤S1、训练集的生成步骤S2和所述模型训练与模型建立步骤S3；显著提升了对用户点击行为预测的准确性。也就是说，本发明通过设计不同的特征工程及算法对用户点击率预估进行两阶段建模，在节约成本的前提下提高预测效果，即得到最终的预测用户点击的二分类学习器。

Description

一种基于召回-排序思想的针对互联网点击率的预测方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种基于召回-排序思想的针对广告点击率的预测方法。

背景技术

点击率(Click-Through Rate，简称CTR)预估问题是互联网计算广告中的关键环节；对用户预估的准确性直接影响公司营销广告的收入。点击率预估问题是互联网计算广告中的关键环节，对用户预估的准确性直接影响公司营销广告的收入。

在广告投放过程中，一般会经历广告曝光、用户点击和用户注册(或称转化)这三个过程，CTR预估的一大目的是提高从广告曝光到用户点击的效率，即提高点击率。由于用户点击或不点击一般定义为用户行为的标签。

本领域技术人员清楚，传统的CTR预估可看作是一个有监督学习问题：即已知了用户点击行为等一系列特征后，将用户点击记为1，用户不点击记为0，从而进行二分类学习。

目前工业界推荐的CTR预估系统大多采用基于召回-排序(recalling-ranking)的算法框架。其基本思路是：由于在实际业务中用户量和特征维度一般都非常高，通常先采用一个相对简单的模型从原始数据的全量信息中筛选出一部分结果，然后将这部分结果作为输入再采用一个更为精细的模型做最终的排序，并生成推荐结果。

相比于召回阶段，排序阶段的数据量一般大大降低。因此，在排序阶段可以在特征工程和模型复杂度等方面都进行更加细致和复杂的设计来满足业务要求。也就是说，排序阶段可以更加细的分为粗排、精排和重排等阶段。常用的排序模型包括了逻辑回归LR、因式分解机FM和基于深度学习的DeepFM等算法。

然而，在实际过程中，由于受到运营环境、网络环境、成本控制等多方面的因素影响，而机器学习的性能又往往依赖于大量高质量的样本，在这种情况下，点击率(Click-Through Rate，简称CTR)预估问题在理论和应用价值方面还需进一步地探讨。其主要基于以下原因：

①、复杂的特征工程和模型若应用在全量原始数据上，成本太高。

②、全量数据中正、负样本的分布差异较大。

发明内容

本发明的目的在于提供一种基于召回-排序思想的针对广告点击率的预测方法，设计不同的特征工程及算法对用户点击率预估进行两阶段建模，在节约成本的前提下提高预测效果，得到最终的预测用户点击的二分类学习器。

为实现上述目的，本发明的技术方案如下：

一种基于召回-排序思想的针对广告点击率的预测方法，其包括数据预处理步骤S1、训练集的生成步骤S2和所述模型训练与模型建立步骤S3；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始信息，并从所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；

步骤S12：对所述用户的原始特征信息进行异常检测与处理步骤；

步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理；

所述训练集的生成步骤S2包括：

S21：对所述用户的原始信息进行特征筛选和特征构造，以形成新的特征；

S22：对于机器学习算法模型，将连续特征根据多个阈值来进行离散化；

所述模型训练与模型建立步骤S3包括：

步骤S31：使用用户建模数据的所有类别特征，以是否点击作为训练标签，建立逻辑回归模型，并得到每个训练样本是否点击的输出概率；

步骤S32，对训练数据中用户的逻辑回归模型输出概率进行降序排序，将概率最低的若干比例的用户直接筛除，保留筛除后的用户；

步骤S33：对于经过上述步骤中筛除剩余的用户，使用连续特征作为数据，是否点击广告作为标签来建立梯度提升决策树模型。

进一步地，所述步骤S33建立梯度提升决策树模型的实现方式包括XGBoost或lightGBM。

进一步地，所述步骤S22中的机器学习算法包括逻辑回归或前馈神经网络。

进一步地，所述的预测方法还包括预测步骤S4，其具体包括：

步骤S41：获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息，并从所述用户原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；

步骤S42：对每一个所述用户的原始信息进行异常检测与处理步骤；通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理；

步骤S43：对所述用户的原始信息进行特征筛选和特征构造，以形成新的特征；对于机器学习算法的模型将连续特征根据多个阈值来进行离散化；

步骤S44：提供建立训练好的梯度提升决策树模型，依次使用从所述用户原始信息提取原始特征信，得到拟对营销活动点击预测的用户群体中所有所述用户的预测值；其中，所述用户的模型预测值为所述用户的点击意愿度。

进一步地，所述的预测方法，所述模型预测步骤S4还包括：

步骤S45：根据实际投放需求，选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。

从上述技术方案可以看出，本发明的基于召回-排序思想的针对广告点击率的预测方法，在点击率的实际业务中，可以采用两阶段建模和预测的流程，具有如下有益效果：

①、从推荐成本、计算成本和时间成本等综合业务需求考虑，最终实际推荐的数量相比于原始数据占比较少。

②、根据在全量数据中正、负样本的分布差异较大，使实际受到推荐的用户的特征分布与全量数据减少。

综上所述，本发明采用两阶段建模后，在第一阶段，可以采用相对简单和计算效率高的算法筛选出候选对象；在第二阶段，可以针对实际业务设计更加精细的特征工程或算法，以达到更加精准的推荐效果。

附图说明

图1所示为本发明实施例中基于召回-排序思想的针对广告点击率的预测方法的流程示意图

图2所示为本发明实施例中的通过逻辑回归输出的训练数据概率分布示意图

图3所示为本发明实施例中的梯度提升决策树模型生成和预测步骤示意图

图4所示为本发明实施例中两阶段模型训练和预测的示意图

具体实施方式

下面结合附图1-4，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，针对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

请参阅图1，图1所示为本发明基于召回-排序思想的针对广告点击率的预测方法的流程示意图。如图1所示，该预测方法包括数据预处理步骤S1、训练集的生成步骤S2和预测模型建立步骤S3和营销活动预测步骤S4。

在本发明的实施例中，数据预处理步骤非常重要，所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始信息，并从所述用户的原始信息提取原始特征信息；其中，所述原始特征信息包括用户ID(user_id)、用户所在省份(province)、用户所在城市(city)、用户访问DPI、用户访问时间(频度)、设备类型(phone_type)和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2。

请参阅下表1，表1为预处理之前的原始数据的表格描述，预处理之前的原始数据形式如下表1所示：

表1

请注意此时，对于数据的标签，即用户是否点击，只区分为正样本(1)和未标记样本(0)。

在本发明的实施例中，上述的原始数据还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。

步骤S12：对所述用户的原始信息进行异常检测与处理步骤。

异常检测与处理：在结合业务要求的过程中，对于原始数据中的缺失值、过大值等需要进行删除、填充等处理。在数据的采集过程中，由于一般用户量为百万级别，因此，采集过程中可能出现缺失情况；若缺失量较小，一般可直接进行剔除；若无法判断缺失数据是否会影响最终的模型训练效果，则一般可根据取平均数、众数和中位数等方法来填补缺失值。

并且在数据采集中，可能还会遇到过大值的问题，比如某用户在一天之内访问了DPI上万次，这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助，因此，也可以采用剔除的处理，或者采用填补的方法进行相应的处理。

从上表中可以看出，相比于传统的用户访问数据，每一个用户ID对应多个DPI访问记录，同时还给出了访问的时间。

在本发明的实施例中，还包括用户访问DPI处理。由于每个用户所访问的DPI不唯一，因此，原始数据中同一用户ID可能会出现多次，即用户具有多条访问信息。也就是说，将所有DPI去重后，建立用户访问DPI的特征列，若某用户访问了某几个DPI，则这些DPI的统计次数加1。

步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理。

类别特征处理：对于用户号码所在省份、城市、设备类型等类别特征(categoricalfeatures)，可以通过独热编码(one-hot enconding)进行展开。例如，省份有(HN,JS,LN,SH,JL,BJ)，通过独热编码后，某个用户所在的省份则为1，其他省份则为0。以用户ID为199990为例，其省份为HN，于是经过独热编码后，其归属地向量为(1,0,0,0,0,0)；对应的，用户199991的归属地向量则为(0,1,0,0,0,0)。

连续特征处理：也称为数值型特征(numerical features)，可根据业务需求及模型选择进行相关处理，例如对于采用梯度下降(gradient decent)进行求解的模型，如逻辑回归和神经网络等，一般归一化后梯度下降更加平滑，收敛速度更快。又比如某些机器学习模型是以特征服从高斯分布为前提，此时可通过GaussRank等方法调整样本分布。

所述训练集的生成步骤S2包括：

步骤S21：进行特征筛选和特征构造，以形成新的特征。

特征筛选：根据嵌入法，建立随机森林基学习器对预处理后的数据进行训练，并输出各个特征的重要性，消除若干权重较低的特征，再基于新的特征集进行下一轮训练，重复M次递归的消除重要性较低的特征，较佳地，M为3。

特征构造：添加常用的统计特征，如偏度(skewness)、峰度(peakedness)等。

步骤S22：连续特征离散化：对于一些机器学习算法如逻辑回归、前馈神经网络等，将连续特征根据多个阈值来进行离散化，可以有效增加算法优化的收敛速度，已经避免异常值对模型训练的影响，一定程度上起到了正则化的作用。例如，根据样本在某个连续特征上分布的不同分位数(假设分位数取0.25，0.5，0.75)，可以将样本在该连续特征上划分为5个区间。每个样本之可能分布在五个区间中的其中一个，则该样本在所位于的特征区间中取值为1，在其余四个区间中取值为0。连续特征离散化的效果即是将一个连续特征展开为独热编码的形式。

经过预处理和特征工程后，数据可用如下表2所示：

其中，连续特征为dpi访问频次、峰度、偏度等统计特征。类别特征为dpi访问的独热编码、号码归属地的独热编码和离散化后的dpi访问频次。

经过上述数据处理步骤后，将新生成的数据分成训练集和验证集，并执行模型训练与模型建立步骤S3：

本发明的模型建立分为两步：

步骤S31：使用用户建模数据的所有类别特征，以是否点击作为训练标签，建立逻辑回归模型，并得到每个训练样本是否点击的输出概率。

逻辑回归的损失函数如下：

请参阅图2，图2所示为本发明实施例中的通过逻辑回归输出的训练数据概率分布示意图。如图2所示，每个样本通过训练后的模型所得到的输出都可以通过上述损失函数投影到0-1之间，其输出越接近1则表示该用户点击广告的倾向越大，反之亦然。

步骤S32，对训练数据中用户的逻辑回归模型输出概率进行降序排序，将概率最低的若干比例的用户(例如，概率最低的60％的用户)直接筛除，保留筛除后的用户。

请参阅图3，图3所示为本发明实施例中的梯度提升决策树模型生成和预测步骤示意图。该梯度提升决策树模型生成步骤如下：

步骤S33：对于经过上述步骤中筛除剩余的用户，使用连续特征作为数据，是否点击广告作为标签来建立梯度提升决策树模型(实现方式如XGBoost或lightGBM，无特殊要求)。

也就是说，将所述新的训练集中的每一个样本对所述神经网络模型进行训练和验证，得到参数优化后的所述神经网络模型，并使用验证集进行验证，得到最终的预测网络模型。

请再参阅图3，有了上述梯度提升决策树模型后，待预测的用户数据根据前述方式做相同的特征工程处理。在预测时，先使用待预测用户数据的类别特征作为输入，出入训练后的逻辑回归模型，得到待预测用户的点击概率。之后对点击概率进行降序排序，筛除和训练时所使用的相同比例的点击概率较低的用户，得到筛除后的待预测用户。将剩余的待预测用户的连续特征作为输出，传入训练后的梯度提升决策树模型，得到该部分预测用户的点击概率。最后根据业务情况，选择点击概率最高的部分用户，作为广告投放对象进行广告投放。

具体地，上述所有处理步骤完成后，就可以通过将上述特征带入训练好的用户预测模型，能够提前在广告投放之前就筛选出意愿较高的部分用户，并对这些用户进行营销广告的精准投放，预测步骤S4具体包括：

请参阅图4，图4所示为本发明实施例中两阶段模型训练和预测的示意图。从图4可知，第一阶段较为“粗糙”的模型预测的概率分布主要集中在低概率区间(大约在0.007)，在高概率区间则密度较低。而在第二阶段模型预测的概率则明显产生了向高概率区间的偏移，如概率在0.02-0.04的区间。

结果表明，通过本发明的方法，可以有效利用召回-排序的思想，对不同阶段用户特征进行建模，有效降低了计算等成本，并显著提升了对用户点击行为预测的准确性。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于召回-排序思想的针对广告点击率的预测方法，其特征在于，包括数据预处理步骤S1、训练集的生成步骤S2和所述模型训练与模型建立步骤S3；

所述数据预处理步骤S1包括如下步骤：

所述训练集的生成步骤S2包括：

所述模型训练与模型建立步骤S3包括：

2.根据权利要求1所述的预测方法，其特征在于，所述步骤S22建立梯度提升决策树模型的实现方式包括XGBoost或lightGBM。

3.根据权利要求1所述的预测方法，其特征在于，所述步骤S22中的机器学习算法包括逻辑回归或前馈神经网络。

4.根据权利要求1所述的预测方法，其特征在于，还包括预测步骤S4，其具体包括：

5.根据权利要求4所述的预测方法，其特征在于，所述模型预测步骤S4还包括：