CN115880003A

CN115880003A - 基于自步学习对无标签样本用户行为的预测建模方法

Info

Publication number: CN115880003A
Application number: CN202211707318.4A
Authority: CN
Inventors: 项亮
Original assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Shuming Artificial Intelligence Technology Co ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-03-31

Abstract

一种基于自步学习对无标签样本用户行为的预测建模方法，其包括数据预处理步骤、特征工程的处理步骤、对无标签样本的自步学习策略步骤和模型训练步骤；基于自步学习的策略逐步地对无标签样本中采样并学习，将每一个所述无标签样本归类于相应的正标签样本和负标签样本类别中；采用自步学习打上标签的正标签样本和负标签样本，有监督学习地对多层的全连接神经网络进行训练，得到最终的预测模型。因此，本发明通过构建针对于不同置信度样本的混合损失函数，并结合In&Out策略逐步的选择置信度高的样本打上标签，稳步提升预测效果，提升了用户点击率预测的结果。

Description

基于自步学习对无标签样本用户行为的预测建模方法

技术领域

本发明涉及人工智能在互联网营销的技术领域，更具体地，涉及一种基于自步学习对无标签样本用户行为的预测建模方法。

背景技术

点击率(Click-Through Rate，简称CTR)预估问题是互联网计算广告中的关键环节；对用户预估的准确性直接影响公司营销广告的收入。点击率预估问题是互联网计算广告中的关键环节，对用户预估的准确性直接影响公司营销广告的收入。

在广告投放过程中，一般会经历广告曝光、用户点击和用户注册(或称转化)这三个过程，CTR预估的一大目的是提高从广告曝光到用户点击的效率，即提高点击率。由于用户点击或不点击一般定义为用户行为的标签。

本领域技术人员清楚，传统的CTR预估可看作是一个有监督学习问题：即已知了用户点击行为等一系列特征后，将用户点击记为1，用户不点击记为0，从而进行二分类学习。

在点击率预估中，样本数据往往存在着严重的分布不均衡，即正样本(点击用户)一般只占到总样本的很少数。一般来说，对于没有点击的用户，会直接打上负标签，于是和正样本构成了典型的二分类问题。而根据实际投放经验，未点击用户并一定代表没有点击的意愿，因此直接将其归类于负样本是不够准确的。

相对于有着点击与不点击明确标签的二分类问题，此时正样本与无标签样本组成了数据集，可以采用半监督学习方法来实现。然而，由于无标签样本占比较大，直接套用模型训练往往效果较差。

在现有技术中的对于无标签样本的学习方法中，一般通过一些特定的规则或学习办法将无标签样本打上正负标签并与已有标签数据组合为新的数据集。这种一次性的判别方法往往不具备较高的置信度，容易将错误标签样本引入，从而导致训练结果变差。

因此，开发从无标签的样本中逐步的选择置信度高的样本打上标签，加入到训练数据中的学习方法，对于提升无标签样本预测效果具有重要的实际意义。

发明内容

本发明的目的在于提供一种基于自步学习对无标签样本用户行为的预测建模方法，其从无标签的样本中逐步的选择置信度高的样本打上标签，加入到训练数据中的学习方法，提升无标签样本预测效果。

为实现上述目的，本发明的技术方案如下：

一种基于自步学习对无标签样本用户行为的预测建模方法，其特征在于，包括数据预处理步骤S1、特征工程的处理步骤S2、对无标签样本的自步学习策略步骤S3和模型训练步骤S4；

所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始数据信息，并从所述用户的原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间(频度)、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；

步骤S12：对所述用户的原始特征信息进行异常检测与处理步骤；

步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理；

所述特征工程的处理步骤S2包括如下步骤：

步骤S21：用户访问DPI处理步骤，建立用户ID与用户访问DPI的特征列；

步骤S22：采用通过独热编码对类别特征进行处理；

步骤S23：连续特征进行数值型特征改造处理；

步骤S24：进行特征筛选和特征构造，以形成新的特征；

步骤S25：执行连续特征离散化处理；

步骤S3具体包括如下步骤：

步骤S31：热身阶段

在热身阶段的初始化时，将原始数据集中的所有正样本标签和无标签样本，通过一个多层的全连接神经网络进行训练，并在全连接神经网络的最后接入一个sigmoid函数，输出对于每一个样本的预测概率，并按照从大到小排序后得到预测分数；

步骤S32：自步学习阶段

基于自步学习的策略和步骤S31得到的无标签样本的预测分数排序，逐步地对无标签样本中采样并学习，将每一个所述无标签样本归类于相应的正标签样本和负标签样本类别中；

模型训练步骤S4：

将所述步骤S32通过自步学习打上标签的正标签样本和负标签样本，采用有监督学习对多层的全连接神经网络进行训练，得到最终的预测模型。

进一步地，所述步骤S32具体包括：

在热身阶段的初始化时，将原始数据集中的正标签样本放入可信任数据集D_trust，把无标签样本放入不可信任数据集D-D_trust，通过一个多层的全连接神经网络进行训练，并在全连接神经网络的最后接入一个sigmoid函数，输出对于每一个样本的预测概率，并按照从大到小排序后得到预测分数；将通过sigmoid函数输出预测概率并排序后排名前X％的无标签样本放入到可信任数据集D_trust中；其中，所述可信任数据集D_trust中的样本为正标签样本，所述不可信任数据集D-D_trust中的样本为负标签样本。

进一步地，在步骤S4中，所述多层的全连接神经网络的权重更新是基于对损失函数应用链式法则求偏导数，针对所述可信任数据集D_trust和所述不可信任数据集D-D_trust中的数据特点，构建两种不同的损失函数，具体来说：

对于所述可信任数据集D_trust，采用二分类常用的交叉熵损失函数，其表达式为：

L_CE(x，y)＝logf(g(x))||_y＝1+log(1-f(g(x)))||_y＝-1对于所述不可信任数据集D-D_trust，采用sigmoid损失函数，其表达式为：

L_nnPU(x)＝1/(1+exp(x))

于是，总的损失函数可以表达为：

根据损失函数值对样本进行打分；

在根据混合损失函数值对样本进行打分后，将一部分置信度高的样本加入到所述可信任数据集D_trust中，置信度低的样本则加入到所述不可信任数据集D-D_trust中。

进一步地，在后续的训练中，若发现某一正标签样本对于模型效果没有显著提升，则可以从所述可信任数据集D_trust中取出，放回训练数据中重新进行评估；或直接加入到所述不可信任数据集D-D_trust中。

进一步地，所述的预测建模方法还包括预测步骤S5，其具体包括：

步骤S51：获取拟对营销活动点击预测的用户群体和所述用户群体的用户待预测样本，并从所述待预测样本提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；

步骤S52：对每一个所述用户的原始数据信息进行异常检测与处理步骤；通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理；

步骤S53：提供建立训练好的最终预测模型，每个待评估用户的特征，依次输入最终预测模型，最终输出每个待测样本的预测概率，即得到拟对营销活动点击预测的用户群体中所有所述用户的预测值；其中，所述用户的模型预测值为所述用户的点击意愿度。

进一步地，所述模型预测步骤S5还包括：

步骤S54：根据实际投放需求，选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。

从上述技术方案可以看出，本发明的基于自步学习对无标签样本广告点击率的预测建模方法，其基于自步学习的思想，通过构建针对于不同置信度样本的混合损失函数，并结合In&Out策略逐步的选择置信度高的样本打上标签，稳步提升预测效果，即有效实现对于点击率预估问题中无标签样本的学习，通过自步学习策略逐步提升模型对于正负样本判别的能力，并在实际业务中获得了提升点击率预测结果。

附图说明

图1所示为本发明实施例中基于自步学习对无标签样本广告点击率的预测建模方法流程示意图

图2所示为本发明实施例中基于自步学习的策略整体框架示意图

图3所示为本发明实施例中自步学习阶段的过程示意图

具体实施方式

下面结合附图1-3，对本发明的具体实施方式作进一步的详细说明。

在下述的具体实施方式中，在详述本发明的实施方式时，为了清楚地表示本发明的结构以便于说明，针对附图中的结构不依照一般比例绘图，并进行了局部放大、变形及简化处理，因此，应避免以此作为对本发明的限定来加以理解。

请参阅图1，图1所示为本发明基于自步学习对无标签样本广告点击率的预测建模方法流程示意图。如图1所示，包括数据预处理步骤S1、特征工程的处理步骤S2、正/无标签样本随机切分与组合集成训练策略步骤S3和模型训练与模型建立步骤S4。

在本发明的实施例中，数据预处理步骤S1非常重要，所述数据预处理步骤S1包括如下步骤：

步骤S11：获取N个用户的原始数据信息，并从所述用户的原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID(user_id)、用户所在省份(province)、用户所在城市(city)、用户访问DPI(dpi)、用户访问时间(频度)、设备类型(phone_type)和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2。

请参阅下表1，表1为预处理之前的原始数据信息的表格描述，预处理之前的原始数据信息形式如下表1所示：

表1

请注意此时，对于数据的标签，即用户是否点击，只区分为正样本(1)和未标记样本(0)。

在本发明的实施例中，上述的原始数据信息还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。

步骤S12：对所述用户的原始数据信息进行异常检测与处理步骤。

异常检测与处理：在结合业务要求的过程中，对于原始数据信息中的缺失值和过大值等需要进行删除和填充等处理。在原始数据信息的采集过程中，由于一般用户量为百万级别，因此，采集过程中可能出现缺失情况；若缺失量较小，一般可直接进行剔除；若无法判断缺失原始数据信息是否会影响最终的模型训练效果，则一般可根据取平均数、众数和中位数等方法来填补缺失值。

并且在原始数据信息采集过程中，可能还会遇到过大值的问题，比如某用户在一天之内访问了DPI上万次，这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助，因此，也可以采用剔除的处理，或者采用填补的方法进行相应的处理。

步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用RankGauss方法对连续特征进行调整样本分布处理。

从上表中可以看出，相比于传统的用户访问数据，每一个用户ID对应多个DPI访问记录，同时还给出了访问的时间。

在本发明的实施例中，还包括用户访问DPI处理。由于每个用户所访问的DPI不唯一，因此，原始数据信息中同一用户ID可能会出现多次，即用户具有多条访问信息。也就是说，将所有DPI去重后，建立用户访问DPI的特征列，若某用户访问了某几个DPI，则这些DPI的统计次数加1。

步骤S2：特征工程的处理步骤，其对所述用户的原始数据信息进行特征筛选和特征构造，以形成新的特征；其具体包括如下步骤：

步骤S21：用户访问DPI处理步骤，建立用户ID与用户访问DPI的特征列。由于每个用户所访问的DPI不唯一，因此原始数据信息中同一用户ID可能会出现多次，即用户具有多条访问信息。因此，将所有DPI去重后，建立用户DPI的特征列，若某用户访问了某几个DPI，则这些DPI的统计次数加1。

步骤S22：类别特征处理：对于用户号码所在省份、城市、设备类型等类别特征(categorical features)，可以通过独热编码(one-hot enconding)进行展开。例如，省份有(HN,JS,LN,SH,JL,BJ)，通过独热编码后，某个用户所在的省份则为1，其他省份则为0。以用户ID为199990为例，其省份为HN，于是经过独热编码后，其归属地向量为(1,0,0,0,0,0)；对应的，用户199991的归属地向量则为(0,1,0,0,0,0)。

步骤S23：连续特征进行数值型特征改造处理。

该步骤称为数值型特征(numerical features)改造步骤，其可根据业务需求及模型选择进行相关处理，例如对于采用梯度下降(gradient decent)进行求解的模型，如逻辑回归和神经网络等，一般归一化后梯度下降更加平滑，收敛速度更快。又比如某些机器学习模型是以特征服从高斯分布为前提，此时可通过GaussRank等方法调整样本分布。

步骤S24：进行特征筛选和特征构造，以形成新的特征。

特征筛选：根据嵌入法，建立随机森林基学习器对预处理后的数据进行训练，并输出各个特征的重要性，消除若干权重较低的特征，再基于新的特征集进行下一轮训练，重复M次递归的消除重要性较低的特征，较佳地，M为3。

特征构造：添加常用的统计特征，如偏度(skewness)、峰度(peakedness)等。

步骤S25：连续特征离散化。

对于一些机器学习算法如逻辑回归和前馈神经网络等，将连续特征根据多个阈值来进行离散化，可以有效增加算法优化的收敛速度，已经避免异常值对模型训练的影响，一定程度上起到了正则化的作用。例如，根据样本在某个连续特征上分布的不同分位数(假设分位数取0.25，0.5，0.75)，可以将样本在该连续特征上划分为5个区间。每个样本之可能分布在五个区间中的其中一个，则该样本在所位于的特征区间中取值为1，在其余四个区间中取值为0。连续特征离散化的效果即是将一个连续特征展开为独热编码的形式。

经过预处理和特征工程后，数据可用如下表2所示：

表2

其中，连续特征为DPI访问频次、峰度、偏度等统计特征。类别特征为用户访问DPI访问的独热编码、号码归属地的独热编码和离散化后的DPI访问频次。

请结合图1参阅图2，详述所述对无标签样本的自步学习策略步骤S3。在本发明的实施例中，针对点击率预估中存在的正标签样本和无标签样本分布不均衡，改变了原有的有监督学习策略，建立了基于自步学习策略的有监督学习策略。

具体地，该无监督学习策略将原始数据集中点击了广告的用户数据看作为正标签样本数据，而没有点击广告的用户看作是无标签样本数据(无标签意味着不确认该用户是否会点击)。对原始训练数据中的正标签样本和无标签样本进行正/无标签样本基于自步学习的策略切分与组合集成训练策略步骤包括如下步骤：

步骤S31：热身阶段(warm-up stage)。

将原始数据集(包含了所有正样本标签和无标签样本)通过一个简单多层的全连接神经网络进行训练，并在网络的最后接入一个sigmoid函数，输出对于每一个样本的预测概率，并按照从大到小排序后得到预测分数。

步骤S32：自步学习阶段(self-paced stage)。

基于自步学习的策略和步骤S31得到的无标签样本的预测分数排序，逐步地对无标签样本中采样并学习，将每一个所述无标签样本归类于相应的正标签样本和负标签样本类别中。

请查阅图3，图3所示为本发明实施例中自步学习阶段的过程示意图。具体地，自步学习阶段步骤S32可以包括：

在本发明的实施例中，模型训练步骤S4，可以将最终划分好的不可信任数据集D_trust和不可信任数据集D-D_trust和并，随机划分成训练集和验证集，对神经网络进行训练，得到最终预测模型。

当然，步骤S4还可以包括对所述最终预测模型进行模型评价指标处理和调优处理；所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。

所述模型评价指标包括AUC(Area Under Curve)值、Log loss值和相对信息增益RIG(Relative Information Gain)值。一般来说，AUC值越接近1，则模型分类效果越好。Logloss值越小，说明点击率预估的准确度越高；相对信息增益值越大模型效果越好。

例如，在对数据按照上述步骤处理并通过模型训练后，通过本地验证的AUC值，可以判断该模型的训练效果；若效果较差，一般需要对模型进行调优，对于深度学习算法，一般可从如下几方面进行优化：

①、增加批归一化(Batch Normalization)，解决数据的内部协变量偏移问题(Internal Covariate Shift)。

②、在网络中增加Dropout，即让部分神经元在训练过程中处于休眠状态。

③、调整学习率，一般会通过指数式衰减等策略调整训练过程中的学习率。

④、设置多种子训练取平均，降低训练过程中的过拟合风险。

⑤、增加L1或者L2正则化，对损失函数施加惩罚，以降低过拟合风险。

⑥、超参数的优化。

在对超参数的优化方法上，一般可以采用网格搜索(Grid Search)或者随机搜索(Random Search)；但上述两种方法对于计算资源的消耗较大，且效率不高。在本发明的实施例中，采用贝叶斯优化(Bayesian Optimization)策略。贝叶斯优化通过高斯过程回归计算前面n个数据点的后验概率分布，得到每一个超参数在每一个取值点的均值和方差；贝叶斯优化通过均衡均值和方差，根据超参数间的联合概率分布，最终选择一组较好的超参数。

在步骤S4中，所述多层的全连接神经网络的权重更新是基于对损失函数应用链式法则求偏导数，针对所述可信任数据集D_trust和所述不可信任数据集D-D_trust中的数据特点，构建两种不同的损失函数，具体来说：

L_CE(x，y)＝logf(g(x))||_y＝1+log(1-f(g(x)))||_y＝-1

对于所述不可信任数据集D-D_trust，采用sigmoid损失函数，其表达式为：

L_nnPU(x)＝1/(1+exp(x))

于是，总的损失函数可以表达为：

根据损失函数值对样本进行打分；

上述步骤还可以包括In&Out策略，即在后续的训练中，若发现某一正标签样本对于模型效果没有显著提升，则可以从所述可信任数据集D_trust中取出，放回训练数据中重新进行评估；或直接加入到所述不可信任数据集D-D_trust中。

上述所有处理步骤完成后，就可以通过将待预测样本特征带入训练好的最终预测模型，能够提前在广告投放之前就筛选出意愿较高的部分用户，并对这些用户进行营销广告的精准投放。即本发明还可以还包括预测步骤S5，所述步骤S5具体包括：

步骤S53：提供建立训练好的最终预测模型，每个待评估用户的特征，依次输入最终预测模型，最终输出每个待测样本的预测概率，即得到拟对营销活动点击预测的用户群体中所有所述用户的预测值；其中，所述用户的模型预测值为所述用户的点击意愿度；

结果表明，本发明基于自步学习的思想，通过构建针对于不同置信度样本的混合损失函数，并结合In&Out策略逐步的选择置信度高的样本打上标签，稳步提升预测效果，提升了用户点击率预测的结果。

以上所述的仅为本发明的优选实施例，所述实施例并非用以限制本发明的专利保护范围，因此凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于自步学习对无标签样本用户行为的预测建模方法，其特征在于，包括数据预处理步骤S1、特征工程的处理步骤S2、对无标签样本的自步学习策略步骤S3和模型训练步骤S4；

所述数据预处理步骤S1包括如下步骤：

所述特征工程的处理步骤S2包括如下步骤：

步骤S22：采用通过独热编码对类别特征进行处理；

步骤S23：连续特征进行数值型特征改造处理；

步骤S24：进行特征筛选和特征构造，以形成新的特征；

步骤S25：执行连续特征离散化处理；

步骤S3具体包括如下步骤：

步骤S31：热身阶段

步骤S32：自步学习阶段

模型训练步骤S4：

2.根据权利要求1所述的预测建模方法，其特征在于，所述步骤S32具体包括：

3.根据权利要求2所述的预测建模方法，其特征在于，在步骤S4中，所述多层的全连接神经网络的权重更新是基于对损失函数应用链式法则求偏导数，针对所述可信任数据集D_trust和所述不可信任数据集D-D_trust中的数据特点，构建两种不同的损失函数，具体来说：

L_CE(x，y)＝logf(g(x))||_y＝1+log(1-f(g(x)))||_y＝-1

L_nnPU(x)＝1/(1+exp(x))

于是，总的损失函数可以表达为：

根据损失函数值对样本进行打分；

4.根据权利要求1所述的预测建模方法，其特征在于，在后续的训练中，若发现某一正标签样本对于模型效果没有显著提升，则可以从所述可信任数据集D_trust中取出，放回训练数据中重新进行评估；或直接加入到所述不可信任数据集D-D_trust中。

5.根据权利要求1所述的预测建模方法，其特征在于，还包括预测步骤S5，其具体包括：

6.根据权利要求5所述的预测建模方法，其特征在于，所述模型预测步骤S5还包括：