CN115935178A

CN115935178A - 基于无标签样本学习的预测集成建模方法

Info

Publication number: CN115935178A
Application number: CN202211320300.9A
Authority: CN
Inventors: 项亮; 裴智晖
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-04-07

Abstract

一种基于无标签样本学习的预测集成建模方法，其包括数据预处理步骤、特征工程的处理步骤、正/无标签样本随机切分与组合集成训练策略步骤和模型训练步骤；其中，本发明对原始训练数据中的正标签样本和无标签样本进行随机采样并按一定样本比例，组合为k份新的样本空间；同时保留一部分数据作为袋外数据用作验证；使用k个学习器进行训练和建立k个预测模型；对每个建立好的k个预测模型，进行独立的袋外数据进行预测，袋外数据中的每个样本都能得到k个预测结果；对k次预测结果取平均，作为袋外数据最终的预测结果；对k个预测模型进行模型评价指标处理和调优处理，得到最终的k个预测模型。因此，本发明有效提升了特征筛选的效果。

Description

基于无标签样本学习的预测集成建模方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种基于无标签样本学习的预测集成建模方法。

背景技术

点击率(Click-Through Rate，简称CTR)预估问题是互联网计算广告中的关键环节；对用户预估的准确性直接影响公司营销广告的收入。点击率预估问题是互联网计算广告中的关键环节，对用户预估的准确性直接影响公司营销广告的收入。

在广告投放过程中，一般会经历广告曝光、用户点击和用户注册(或称转化)这三个过程，CTR预估的一大目的是提高从广告曝光到用户点击的效率，即提高点击率。由于用户点击或不点击一般定义为用户行为的标签。

本领域技术人员清楚，传统的CTR预估可看作是一个有监督学习问题：即已知了用户点击行为等一系列特征后，将用户点击记为1，用户不点击记为0，从而进行二分类学习。

在点击率预估中，样本数据往往存在着严重的分布不均衡，即正样本(点击用户)一般只占到总样本的很少数。一般来说，对于没有点击的用户，会直接打上负标签，于是和正样本构成了典型的二分类问题。而根据实际投放经验，未点击用户并一定代表没有点击的意愿，因此直接将其归类于负样本是不够准确的。

相对于有着点击与不点击明确标签的二分类问题，此时正样本与无标签样本组成了数据集，可以采用半监督学习方法来实现。然而，由于无标签样本占比较大，直接套用模型训练往往效果较差。

发明内容

本发明的目的在于提供一种基于无标签样本学习的预测集成建模方法，开发出适用于点击率预估中无标签样本的学习方法，可以有效的避免上述风险，以提升用户点击率预测结果。

为实现上述目的，本发明的技术方案如下：

基于无标签样本学习的预测集成建模方法，包括数据预处理步骤S1、特征工程的处理步骤S2、正/无标签样本随机切分与组合集成训练策略步骤S3和模型训练步骤S4；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始数据信息，并从所述用户的原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间(频度)、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；

步骤S12：对所述用户的原始特征信息进行异常检测与处理步骤；

步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理；

所述特征工程的处理步骤S2包括如下步骤：

步骤S21：用户访问DPI处理步骤，建立用户ID与用户访问DPI的特征列；

步骤S22：采用通过独热编码对类别特征进行处理；

步骤S23：连续特征进行数值型特征改造处理；

步骤S24：进行特征筛选和特征构造，以形成新的特征；

步骤S25：执行连续特征离散化处理；

步骤S3具体包括如下步骤：

对原始训练数据中的正标签样本和无标签样本进行随机采样并按一定样本比例，组合为k份新的样本空间；同时保留一部分数据作为袋外数据用作验证；

所述模型训练步骤S4包括：

步骤S41：将k份数据中的无标签样本视作负样本，与正样本组成新的训练数据集，将袋外数据作为验证数据集；

步骤S42：在所述训练数据集和验证数据集的基础上使用k个学习器进行训练和建立k个预测模型；

步骤S43：对每个建立好的k个预测模型，进行步骤S41中独立的袋外数据进行预测，所述袋外数据中的每个样本都能得到k个预测结果；其中，所述k个预测结果为一个概率值；

步骤S44：对k次预测结果取平均，作为所述袋外数据最终的预测结果；

步骤S45：根据所述袋外数据最终的预测结果，对所述k个预测模型进行模型评价指标处理和调优处理，得到最终的k个预测模型。

进一步地，所述训练集样本和验证集样本的比例根据模型验证集样本的验证效果进行调整。

进一步地，所述k个预测模型为梯度提升决策树模型，其实现方式包括XGBoost或lightGBM。

进一步地，所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。

进一步地，所述的预测方法还包括预测步骤S5，其具体包括：

步骤S51：获取拟对营销活动点击预测的用户群体和所述用户群体的用户待预测样本，并从所述待预测样本提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；

步骤S52：对每一个所述用户的原始数据信息进行异常检测与处理步骤；通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理；

步骤S53：提供建立训练好的最终的k个预测模型，每个待评估用户的特征，依次输入k个预估模型，得到k个预测结果，最后对这k个预测结果取均值，得到拟对营销活动点击预测的用户群体中所有所述用户的预测值；其中，所述用户的模型预测值为所述用户的点击意愿度。

进一步地，所述模型预测步骤S5还包括：

步骤S54：根据实际投放需求，选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。

从上述技术方案可以看出，本发明的基于无标签样本学习的广告点击率预测集成建模方法，其通过对数据集中正标签样本和无标签样本进行随机切分和组合，构成多折训练样本空间，再经过学习器训练后，对一份独立的out-of-bag(袋外)样本进行预测，集成了不同学习器对于不同样本空间特点的充分学习，有效提升了特征筛选的效果，对于提升预测效果具有重要的实际意义，并在实际业务中获得了提升点击率预测结果。

附图说明

图1所示为本发明实施例中基于无标签样本学习的广告点击率预测集成建模方法流程示意图

图2所示为本发明实施例中基于样本随机采样与集成学习的无监督学习策略的过程示意图

具体实施方式

下面结合附图1-2，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，针对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

请参阅图1，图1所示为本发明基于无标签样本学习的广告点击率预测集成建模方法流程示意图。如图1所示，包括数据预处理步骤S1、特征工程的处理步骤S2、正/无标签样本随机切分与组合集成训练策略步骤S3和模型训练与模型建立步骤S4。

在本发明的实施例中，数据预处理步骤S1非常重要，所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始数据信息，并从所述用户的原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID(user_id)、用户所在省份(province)、用户所在城市(city)、用户访问DPI(dpi)、用户访问时间(频度)、设备类型(phone_type)和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2。

请参阅下表1，表1为预处理之前的原始数据信息的表格描述，预处理之前的原始数据信息形式如下表1所示：

表1

请注意此时，对于数据的标签，即用户是否点击，只区分为正样本(1)和未标记样本(0)。

在本发明的实施例中，上述的原始数据信息还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。

步骤S12：对所述用户的原始数据信息进行异常检测与处理步骤。

异常检测与处理：在结合业务要求的过程中，对于原始数据信息中的缺失值、过大值等需要进行删除、填充等处理。在原始数据信息的采集过程中，由于一般用户量为百万级别，因此，采集过程中可能出现缺失情况；若缺失量较小，一般可直接进行剔除；若无法判断缺失原始数据信息是否会影响最终的模型训练效果，则一般可根据取平均数、众数和中位数等方法来填补缺失值。

并且在原始数据信息采集过程中，可能还会遇到过大值的问题，比如某用户在一天之内访问了DPI上万次，这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助，因此，也可以采用剔除的处理，或者采用填补的方法进行相应的处理。

步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理。

从上表中可以看出，相比于传统的用户访问数据，每一个用户ID对应多个DPI访问记录，同时还给出了访问的时间。

在本发明的实施例中，还包括用户访问DPI处理。由于每个用户所访问的DPI不唯一，因此，原始数据信息中同一用户ID可能会出现多次，即用户具有多条访问信息。也就是说，将所有DPI去重后，建立用户访问DPI的特征列，若某用户访问了某几个DPI，则这些DPI的统计次数加1。

步骤S2：特征工程的处理步骤，其对所述用户的原始数据信息进行特征筛选和特征构造，以形成新的特征；其具体包括如下步骤：

步骤S21：用户访问DPI处理步骤，建立用户ID与用户访问DPI的特征列。由于每个用户所访问的DPI不唯一，因此原始数据信息中同一用户ID可能会出现多次，即用户具有多条访问信息。因此，将所有DPI去重后，建立用户DPI的特征列，若某用户访问了某几个DPI，则这些DPI的统计次数加1。

步骤S22：类别特征处理：对于用户号码所在省份、城市、设备类型等类别特征(categorical features)，可以通过独热编码(one-hot enconding)进行展开。例如，省份有(HN,JS,LN,SH,JL,BJ)，通过独热编码后，某个用户所在的省份则为1，其他省份则为0。以用户ID为199990为例，其省份为HN，于是经过独热编码后，其归属地向量为(1,0,0,0,0,0)；对应的，用户199991的归属地向量则为(0,1,0,0,0,0)。

步骤S23：连续特征进行数值型特征改造处理。

该步骤称为数值型特征(numerical features)改造步骤，其可根据业务需求及模型选择进行相关处理，例如对于采用梯度下降(gradient decent)进行求解的模型，如逻辑回归和神经网络等，一般归一化后梯度下降更加平滑，收敛速度更快。又比如某些机器学习模型是以特征服从高斯分布为前提，此时可通过GaussRank等方法调整样本分布。

步骤S24：进行特征筛选和特征构造，以形成新的特征。

特征筛选：根据嵌入法，建立随机森林基学习器对预处理后的数据进行训练，并输出各个特征的重要性，消除若干权重较低的特征，再基于新的特征集进行下一轮训练，重复M次递归的消除重要性较低的特征，较佳地，M为3。

特征构造：添加常用的统计特征，如偏度(skewness)、峰度(peakedness)等。

步骤S25：连续特征离散化。

对于一些机器学习算法如逻辑回归和前馈神经网络等，将连续特征根据多个阈值来进行离散化，可以有效增加算法优化的收敛速度，已经避免异常值对模型训练的影响，一定程度上起到了正则化的作用。例如，根据样本在某个连续特征上分布的不同分位数(假设分位数取0.25，0.5，0.75)，可以将样本在该连续特征上划分为5个区间。每个样本之可能分布在五个区间中的其中一个，则该样本在所位于的特征区间中取值为1，在其余四个区间中取值为0。连续特征离散化的效果即是将一个连续特征展开为独热编码的形式。

经过预处理和特征工程后，数据可用如下表2所示：

表2

其中，连续特征为DPI访问频次、峰度、偏度等统计特征。类别特征为用户访问DPI访问的独热编码、号码归属地的独热编码和离散化后的DPI访问频次。

请结合图1参阅图2，所述预测模型建立步骤S3包括正/无标签样本随机切分与组合集成训练策略步骤。

在本发明的实施例中，针对点击率预估中存在的正标签样本和无标签样本分布不均衡，改变了原有的有监督学习策略，建立了基于样本随机采样与集成学习的无监督学习策略。

具体地，该无监督学习策略将原始数据集中点击了广告的用户数据看作为正标签样本数据，而没有点击广告的用户看作是无标签样本数据(无标签意味着不确认该用户是否会点击)。对原始训练数据中的正标签样本和无标签样本进行随机采样并按一定样本比例，组合为k份新的样本空间。

同时保留一部分数据作为袋外数据(out-of-bag数据，简称oob数据)用作验证。训练集样本和验证集样本的比例可根据模型验证集样本的验证效果进行调整。

模型训练步骤S4包括：

步骤S42：在所述训练数据集和验证数据集的基础上使用k个学习器进行训练和建立k个预测模型。

在本发明的实施例中，步骤S4所包括对所述k个预测模型进行模型评价指标处理和调优处理(步骤S45)；所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。

所述模型评价指标包括AUC(Area Under Curve)值、Log loss值和相对信息增益RIG(Relative Information Gain)值。一般来说，AUC值越接近1，则模型分类效果越好。Logloss值越小，说明点击率预估的准确度越高；相对信息增益值越大模型效果越好。

例如，在对数据按照上述步骤处理并通过模型训练后，通过本地验证的AUC值，可以判断该模型的训练效果；若效果较差，一般需要对模型进行调优，对于深度学习算法，一般可从如下几方面进行优化：

①、增加批归一化(Batch Normalization)，解决数据的内部协变量偏移问题(Internal Covariate Shift)。

②、在网络中增加Dropout，即让部分神经元在训练过程中处于休眠状态。

③、调整学习率，一般会通过指数式衰减等策略调整训练过程中的学习率。

④、设置多种子训练取平均，降低训练过程中的过拟合风险。

⑤、增加L1或者L2正则化，对损失函数施加惩罚，以降低过拟合风险。

⑥、超参数的优化。

在对超参数的优化方法上，一般可以采用网格搜索(Grid Search)或者随机搜索(Random Search)；但上述两种方法对于计算资源的消耗较大，且效率不高。在本发明的实施例中，采用贝叶斯优化(Bayesian Optimization)策略。贝叶斯优化通过高斯过程回归计算前面n个数据点的后验概率分布，得到每一个超参数在每一个取值点的均值和方差；贝叶斯优化通过均衡均值和方差，根据超参数间的联合概率分布，最终选择一组较好的超参数。

上述所有处理步骤完成后，就可以通过将待预测样本特征带入训练好的k个预测模型，能够提前在广告投放之前就筛选出意愿较高的部分用户，并对这些用户进行营销广告的精准投放。即本发明还可以还包括预测步骤S5，所述步骤S5具体包括：

步骤S53：提供建立训练好的最终的k个预测模型，每个待评估用户(待预测样本)的特征，依次输入k个预估模型，得到k个预测结果，最后对这k个预测结果取均值，得到拟对营销活动点击预测的用户群体中所有所述用户的预测值；其中，所述用户的模型预测值为所述用户的点击意愿度。

结果表明，通过本发明的上述特征筛选方案，对某实际点击率预估数据进行了相关实验，有效实现了通过构造阴影特征对于原特征进行筛选；筛选后的特征显著降低了树模型的过拟合风险，提升了用户点击率预测的结果。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于无标签样本学习的预测集成建模方法，其特征在于，包括数据预处理步骤S1、特征工程的处理步骤S2、正/无标签样本随机切分与组合集成训练策略步骤S3和模型训练步骤S4；

所述数据预处理步骤S1包括如下步骤：

所述特征工程的处理步骤S2包括如下步骤：

步骤S22：采用通过独热编码对类别特征进行处理；

步骤S23：连续特征进行数值型特征改造处理；

步骤S24：进行特征筛选和特征构造，以形成新的特征；

步骤S25：执行连续特征离散化处理；

步骤S3具体包括如下步骤：

所述模型训练步骤S4包括：

2.根据权利要求1所述的预测方法，其特征在于，所述训练集样本和验证集样本的比例根据模型验证集样本的验证效果进行调整。

3.根据权利要求1所述的预测方法，其特征在于，所述k个预测模型为梯度提升决策树模型，其实现方式包括XGBoost或lightGBM。

4.根据权利要求1所述的预测方法，其特征在于，所述模型评价指标包括AUC值、Logloss值和相对信息增益RIG值。

5.根据权利要求1所述的预测方法，其特征在于，还包括预测步骤S5，其具体包括：

6.根据权利要求5所述的预测方法，其特征在于，所述模型预测步骤S5还包括：