CN106886915B

CN106886915B - 一种基于时间衰减采样的广告点击预估方法

Info

Publication number: CN106886915B
Application number: CN201710041277.2A
Authority: CN
Inventors: 董守斌; 黄淦; 胡金龙; 袁华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-01-17
Filing date: 2017-01-17
Publication date: 2020-07-28
Anticipated expiration: 2037-01-17
Also published as: CN106886915A

Abstract

本发明公开了一种基于时间衰减采样的广告点击预估方法，主体思想是从离测试集日期近的数据中多采样，离测试集日期远的数据中少采样，采样量依据时间的远近呈现一个渐变的趋势，通过将采样数据进行时间维度上的划分，构建出适合广告点击预估的训练数据，再通过多模型融合的方法，为广告点击预估构建出更加精准和有效的模型。本发明更能捕捉到时间更近的数据的特征，达到更好的预估效果，此类基于时间衰减的采样方法可以延伸到其他跟时间相关，基于时间序列的不平衡数据中，具有广泛的应用前景。

Description

一种基于时间衰减采样的广告点击预估方法

技术领域

本发明涉及广告点击预估领域，尤其是指一种基于时间衰减采样的广告点击预估方法。

背景技术

互联网在线广告将广告投放和实时的用户信息、媒体信息、上下文情景信息相结合，使得互联网在线广告投放具有技术导向和计算导向，广告可以进行精确的受众定向，每一次广告决策对每个用户的效果都是可衡量和经过精确计算的。对于每一个用户的广告请求，在服务器端都进行了用户与广告库中的广告的匹配，将最适合的广告投放给该用户，以获得更高的潜在广告点击率，得到更多有效点击，产生更多收益，这种模式通常需要先将用户进行数字化建模，用一个正确精准的模型去刻画互联网用户的方方面面，然后再用广告点击预估算法去求得模型计算所需要的权重。广告点击预估模型的构建需要基于过去积累的大量历史点击日志，利用用户历史点击日志进行大数据分析和数据挖掘方法，通过构建合适的广告点击预估的机器学习模型，进行广告点击率的预估，从而进行精准的广告投放。

在许多机器学习任务中，可能会出现目标类别分布不平衡现象，例如广告点击预估这种二分类问题中，训练集会存在某个类别数量远远大于另一个类别数量的情况，在这种类别不平衡问题中，如果直接进行建模，会造成结果偏向数量大的那一个类别，为了使得模型学习到数据的分布，需要解决这种类别不平衡问题。

对于不平衡的数据，传统的学习算法无法很好地发挥作用，针对这种问题，有从数据方面进行改善的解决方法。通过对原始数据进行采样，可以将原本不平衡的数据转化为较平衡的数据，随机采样是一种比较常见的改变数据类别分布的采样方法，随机采样又分为过采样和欠采样，过采样是通过多次有放回的方式，从少数类中抽取数据集，抽取出的数据要大于原来的少数类数据，然后再将抽取出的数据和原来的多数类数据结合，形成完整数据集；欠采样是指从多数类中随机抽取少量的样本，再和原本的少数类样本进行结合，形成完整数据集，根据从多数类中抽取少量样本是否放回，欠采样可以进而分为有放回欠采样和无放回欠采样。过采样和欠采样都是随机的采样方式，在组成完整数据集的过程中，每个样本被选择的机会均等，然而在某些情况下，数据集的时间新鲜度是一个影响训练出的模型的重要因素，应该要有某种采样方式，在随机采样的基础上，将时间因素考虑到采样方法中，从而训练出更加鲁棒的模型。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于时间衰减采样的广告点击预估方法，将时间因素融入采样方法中，此类基于时间衰减的采样方法可以延伸到其他跟时间相关，基于时间序列的不平衡数据中，具有广泛的应用前景。

为实现上述目的，本发明所提供的技术方案为：一种基于时间衰减采样的广告点击预估方法，包括以下步骤：

S1、数据清洗

对广告浏览/点击日志进行数据清洗，需要将后台的数据进行分析，将广告浏览/点击日志按标志分为RSET和CSET,RSET为所有浏览日志的集合，其每条日志标记为0，CSET是所有点击日志集合，其每条日志标记为1；在RSET中遍历每一条浏览日志，若对于一条浏览日志R_i，记R_i的点击时间为UNIX时间戳时间t_i，用户ID为UID_i，广告ID为AID_i，设判别时间间隔阈值为π，如果在CSET中的t_i+π范围内有UID_i和AID_i均相同的点击日志命中，则将该浏览日志R_i标记为1，如果不命中，则保持R_i的标记为0，最后集合RSET为清洗后的广告点击数据集；

S2、预处理

对构建的广告点击数据集RSET进行进一步过滤筛选、缺失值填补、异常值检测，具体如下：

S2.1、过滤筛选及缺失值填补

对广告点击数据集中不符合值的取值范围的数据进行去除处理，对广告点击日志的每个字段进行统计分析，对于一个字段，定义该字段在数据集中值为null或者空字符串的记录为该字段的缺失记录，记为n，记数据集RSET总记录数为N，记阈值为K则对于

超过预设阈值K的字段不进行保留，对于

比例在K之内的字段，将其缺失值赋予一个和该字段其他值都不同的新值，作为正常值使用；另外，对于数据中字段值冗余的情况，消除冗余值；

S2.2、异常值检测

对数据集中每一个用户ID进行总点击次数的统计，并进而统计总点击次数相同的用户的个数，记总点击次数集合为A＝{α₁,α₂,...,α_i,...,α_n}，记相应的用户个数集合为B＝{β₁,β₂,...,β_i,...,β_n},假设α_i和β_i服从幂律分布，则logα_i和logβ_i呈线性关系，将logα_i和logβ_i作散点图，用直线去拟合，将从某个点开始偏离拟合线的总点击次数作为阈值ρ，将总点击次数α_i大于ρ的用户作为异常用户，记正常用户集合为U，记异常用户集合为U'，将异常用户集合U'产生的广告点击数据集合记为SET'，将正常用户集合U产生的广告点击数据集合记为SET；

S3、时间衰减采样

从步骤S2的集合SET中选定连续的m天作为训练集，第m+1天作为测试集，针对训练集，将根据时间新鲜度计算得到的时间因子作为权重，分别计算训练集每天的抽样比例，将每天抽取的样本进行组合，形成整体的多份抽样样本；其中，依据时间衰减的抽样，具体过程如下：

选定连续的m天作为训练集，第m+1天作为测试集后，记m天中的第一天为T₁，第m天为T_m，由此形成T₁,T₂,...,T_t,...,T_m的时间序列数据；根据日期新鲜度为采样引入时间因子，记λ_t为T_t那天的采样比例，则λ_t-1为T_t前一天的采样比例，λ_t+1为T_t后一天的采样比例；所述时间衰减采样即是λ_t-1＜λ_t＜λ_t+1的一种采样方式，其中λ_t由时间衰减函数计算所得，得到λ_t后，若T_t的少数类数量为s，则应该按照欠采样抽取出λ_ts的多数类数量；

时间衰减采样有三个参数m，λ₁和λ_m，这三个参数由人为指定，m为训练集所包含的日期的天数，λ₁为第一天的采样比例，λ_m为第m天的采样比例，其中λ₁与λ_m需要满足0＜λ₁＜λ_m，不同的模型能够根据实际情况对这三个参数进行相应调优；本采样通过时间衰减函数来确定采样比例，时间衰减函数为λ_t＝at²+b，人为确定λ₁和λ_m，时间衰减函数中的参数a和b通过公式(1)(2)求出:

则，在给定m，λ₁和λ_m下，时间衰减函数为公式(3)：

因此，每一天的采样比例能够根据公式(3)得到；

确定了时间衰减函数，并通过时间衰减函数为T_t计算出相应的采样比例λ_t，由此能够得到训练集的时间衰减采样比例序列{λ₁,λ₂,...,λ_t,...,λ_m}，根据采样比例序列{λ₁,λ₂,...,λ_t,...,λ_m}得到训练集的m份采样数据：记T_t的少数类集合为p_t，多数类集合为q_t，|q_t|为q_t包含的记录总数，然后根据采样比例λ_t从q_t中随机抽取出λ_t|q_t|数量的集合，记为q_t'；记从T_t采样出的数据集为S_t，则有S_t＝p_t∪q′_t，记最终的第t份样本集为D_t，1≤t≤m，则D_t由公式

得到，如此就能够得到需要的m份抽样样本序列{D₁,D₂,...,D_t,...,D_m}；

S4、混合模型构建

S4.1、正常用户建模

根据步骤S2的集合SET，得到步骤S3构建的m份抽样样本序列{D₁,D₂,...,D_t,...,D_m}后，分别为每个样本集D_t训练逻辑回归模型M_t，由此得到m个逻辑回归模型{M₁,M₂,...,M_t,...,M_m}；

S4.2、异常用户建模

根据步骤S2的集合SET'，确定和SET一样的训练集和测试集日期，用所有训练数据训练出逻辑回归模型M'；

S4.3、点击预测

根据步骤S2得到的正常用户集合U，异常用户集合U'，针对每一条用户浏览请求，若其用户UID_i∈U，记步骤S4.1的逻辑回归模型M_t的预测值为ε_t，使用时间衰减的方式进行广告点击概率的融合，将时间因子引进模型权重的计算中，根据采样比例序列{λ₁,λ₂,...,λ_t,...,λ_m}以及逻辑回归模型{M₁,M₂,...,M_t,...,M_m}，在模型融合时，分别为每个逻辑回归模型M_t赋予时间衰减的参数，具体地，记采样比例序列元素之和为

将{λ₁,λ₂,...,λ_t,...,λ_m}的每一个元素进行归一化，记λ_t归一化之后的值为λ_t'，则

记最终的预估概率值为E，则

若用户UID_i∈U'，则直接用模型M'得到该用户的广告点击概率。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明利用幂律分布来模拟广告点击行为，并利用幂律分布来检测工业界广告点击数据的异常用户，能够用一种非常符合用户行为客观规律的方式来进行异常数据排除，并且阈值是依据数据而确定的，并不是一层不变的，提供一定的调节空间。异常用户包含潜在的日志数据异常以及点击作弊用户，利用本方法所述的方式可以很好地将异常数据和作弊用户排除出去，从而为模型构建提供较好的数据集。

2、本发明通过在采样中引入时间因子，对时间序列数据的不平衡问题提供了一种采样并尽量不失时间新鲜度的方法，通过采样降低了数据不平衡性，并依据时间新鲜度提高具有较近时间的数据比例，降低较远时间数据的比例。本方法不同于普通的欠采样、过采样等随机采样方式，用户只需要定义简单的两个参数，便可以由采样算法依据时间衰减函数自动去确定一种缓和下降的采样比例序列。通过这种方式，采样比例序列可以由用户动态调节，为模型构建提供一种调优参数。

3、本发明通过将时间因子引入模型融合的权重当中，为每个模型设置不同的融合权重，并且权重的设置与时间新鲜度相关，融合权重的序列可由用户动态调节。不同于常规的平均模型融合法，本方法通过赋予不同模型不同的融合权重，使得广告点击预估模型对更近的数据有更好的数据学习能力，更能捕捉到时间更近的数据的特征，从而达到更好的预估效果。

附图说明

图1为本发明方法的处理步骤流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所述的基于时间衰减采样的广告点击预估方法，包括以下步骤：

步骤S1、数据清洗

对广告浏览/点击日志进行数据清洗，需要将后台的数据进行分析，将广告浏览/点击日志按标志分为RSET和CSET,RSET为所有浏览日志的集合，其每条日志标记为0，CSET是所有点击日志集合，其每条日志标记为1。在RSET中遍历每一条浏览日志，若对于一条浏览日志R_i，记R_i的点击时间为UNIX时间戳时间t_i，用户ID为UID_i，广告ID为AID_i，设判别时间间隔阈值为π，如果在CSET中的t_i+π范围内有UID_i和AID_i均相同的点击日志命中，则将该浏览日志R_i标记为1，如果不命中，则保持R_i的标记为0，最后集合RSET为清洗后的广告点击数据集。

步骤S2、预处理

对构建的广告点击数据集RSET进行进一步过滤筛选、缺失值填补、异常值检测等预处理，具体如下：

步骤S2.1、过滤筛选及缺失值填补

对广告点击数据集中明显不符合值的取值范围的数据进行去除处理，对广告点击日志的每个字段进行统计分析，对于一个字段，定义该字段在数据集中值为null或者空字符串的记录为该字段的缺失记录，记为n，记数据集RSET总记录数为N，记阈值为K则对于

超过一定阈值K的字段不进行保留，对于

比例在K之内的字段，将其缺失值赋予一个和该字段其他值都不同的新值，作为正常值使用；另外，对于数据中字段值冗余的情况，消除冗余值。

步骤S2.2、异常值检测

对数据集中每一个用户ID进行总点击次数的统计，并进而统计总点击次数相同的用户的个数，记总点击次数集合为A＝{α₁,α₂,...,α_i,...,α_n}，记相应的用户个数集合为B＝{β₁,β₂,...,β_i,...,β_n},假设α_i和β_i服从幂律分布，则logα_i和logβ_i呈线性关系，将logα_i和logβ_i作散点图，用直线去拟合，将从某个点开始明显偏离拟合线的总点击次数作为阈值ρ，将总点击次数α_i大于ρ的用户作为异常用户，记正常用户集合为U，记异常用户集合为U'，将异常用户集合U'产生的广告点击数据集合记为SET'，将正常用户集合U产生的广告点击数据集合记为SET。

步骤S3、时间衰减采样

从步骤S2中的集合SET中选定连续的m天作为训练集，第m+1天作为测试集，针对训练集，将根据时间新鲜度计算得到的时间因子作为权重，分别计算训练集每天的抽样比例，将每天抽取的样本进行组合，形成整体的多份抽样样本。其中，依据时间衰减的抽样，具体过程如下：

选定连续的m天作为训练集，第m+1天作为测试集后，记m天中的第一天为T₁，第m天为T_m，由此形成T₁,T₂,...,T_t,...,T_m的时间序列数据，根据日期新鲜度为采样引入时间因子，记λ_t为T_t那天的采样比例，则λ_t-1为T_t前一天的采样比例，λ_t+1为T_t后一天的采样比例。所述时间衰减采样即是λ_t-1＜λ_t＜λ_t+1的一种采样方式，其中λ_t由时间衰减函数计算所得，具体由下面内容阐述，得到λ_t后，若T_t的少数类数量为s，则应该按照欠采样抽取出λ_ts的多数类数量。

时间衰减采样有三个参数m，λ₁和λ_m，这三个参数由人为指定，m为训练集所包含的日期的天数，λ₁为第一天的采样比例，λ_m为第m天的采样比例，其中λ₁与λ_m需要满足0＜λ₁＜λ_m，不同的模型可以根据实际情况对这三个参数进行相应调优。本采样通过时间衰减函数来确定采样比例，时间衰减函数为λ_t＝at²+b，人为确定λ₁和λ_m，时间衰减函数中的参数a和b可以通过公式(1)(2)求出:

则，在给定m，λ₁和λ_m下，时间衰减函数为公式(3)：

因此，每一天的采样比例可以根据公式(3)得到。

上面确定了时间衰减函数，并可以通过时间衰减函数为T_t计算出相应的采样比例λ_t，由此可以得到训练集的时间衰减采样比例序列{λ₁,λ₂,...,λ_t,...,λ_m}，根据采样比例序列{λ₁,λ₂,...,λ_t,...,λ_m}得到训练集的m份采样数据：记T_t的少数类集合为p_t，多数类集合为q_t，|q_t|为q_t包含的记录总数，然后根据采样比例λ_t从q_t中随机抽取出λ_t|q_t|数量的集合，记为q_t'；记从T_t采样出的数据集为S_t，则根据本采样算法有S_t＝p_t∪q′_t，记最终的第t份样本集为D_t，1≤t≤m，则D_t由公式

得到，如此可以得到算法需要的m份抽样样本序列{D₁,D₂,...,D_t,...,D_m}。

步骤S4、混合模型构建

步骤S4.1、正常用户建模

根据步骤S2的集合SET，得到步骤S3构建的m份抽样样本序列{D₁,D₂,...,D_t,...,D_m}后，分别为每个样本集D_t训练逻辑回归模型M_t，由此可以得到m个逻辑回归模型{M₁,M₂,...,M_t,...,M_m}。

步骤S4.2、异常用户建模

根据步骤S2的集合SET'，确定好和SET一样的训练集和测试集日期，用所有训练数据训练出逻辑回归模型M'。

步骤S4.3、点击预测

记最终的预估概率值为E，则

综上所述，本发明将时间因素融入采样方法中，主体思想是从离测试集日期近的数据中多采样，离测试集日期远的数据中少采样，采样量依据时间的远近呈现一个渐变的趋势，通过将采样数据进行时间维度上的划分，构建出适合广告点击预估的训练数据，再通过多模型融合的方法，为广告点击预估构建出更加精准和有效的模型。此类基于时间衰减的采样方法可以延伸到其他跟时间相关，基于时间序列的不平衡数据中，具有广泛的应用前景，值得推广。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于时间衰减采样的广告点击预估方法，其特征在于，包括以下步骤：

S1、数据清洗

S2、预处理

S2.1、过滤筛选及缺失值填补

超过预设阈值K的字段不进行保留，对于

S2.2、异常值检测

对数据集中每一个用户ID进行总点击次数的统计，并进而统计总点击次数相同的用户的个数，记总点击次数集合为A＝{α₁,α₂,...,α_i,...,α_n}，记相应的用户个数集合为B＝{β₁,β₂,...,β_i,...,β_n},假设α_i和β_i服从幂律分布，则logα_i和logβ_i呈线性关系，将logα_i和logβ_i作散点图，用直线去拟合，将从某个点开始偏离拟合线的总点击次数作为阈值ρ，将总点击次数α_i大于ρ的用户作为异常用户，记正常用户集合为U，记异常用户集合为U′，将异常用户集合U′产生的广告点击数据集合记为SET′，将正常用户集合U产生的广告点击数据集合记为SET；

S3、时间衰减采样

则，在给定m，λ₁和λ_m下，时间衰减函数为公式(3)：

因此，每一天的采样比例能够根据公式(3)得到；

确定了时间衰减函数，并通过时间衰减函数为T_t计算出相应的采样比例λ_t，由此能够得到训练集的时间衰减采样比例序列{λ₁,λ₂,...,λ_t,...,λ_m}，根据采样比例序列{λ₁,λ₂,...,λ_t,...,λ_m}得到训练集的m份采样数据：记T_t的少数类集合为p_t，多数类集合为q_t，|q_t|为q_t包含的记录总数，然后根据采样比例λ_t从q_t中随机抽取出λ_t|q_t|数量的集合，记为q′_t；记从T_t采样出的数据集为S_t，则有S_t＝p_t∪q′_t，记最终的第t份样本集为D_t，1≤t≤m，则D_t由公式

S4、混合模型构建

S4.1、正常用户建模

S4.2、异常用户建模

根据步骤S2的集合SET′，确定和SET一样的训练集和测试集日期，用所有训练数据训练出逻辑回归模型M′；

S4.3、点击预测

根据步骤S2得到的正常用户集合U，异常用户集合U′，针对每一条用户浏览请求，若其用户UID_i∈U，记步骤S4.1的逻辑回归模型M_t的预测值为ε_t，使用时间衰减的方式进行广告点击概率的融合，将时间因子引进模型权重的计算中，根据采样比例序列{λ₁,λ₂,...,λ_t,...,λ_m}以及逻辑回归模型{M₁,M₂,...,M_t,...,M_m}，在模型融合时，分别为每个逻辑回归模型M_t赋予时间衰减的参数，具体地，记采样比例序列元素之和为

将{λ₁,λ₂,...,λ_t,...,λ_m}的每一个元素进行归一化，记λ_t归一化之后的值为λ′_t，则

记最终的预估概率值为E，则

若用户UID_i∈U′，则直接用模型M′得到该用户的广告点击概率。