CN106886915B - 一种基于时间衰减采样的广告点击预估方法 - Google Patents

一种基于时间衰减采样的广告点击预估方法 Download PDF

Info

Publication number
CN106886915B
CN106886915B CN201710041277.2A CN201710041277A CN106886915B CN 106886915 B CN106886915 B CN 106886915B CN 201710041277 A CN201710041277 A CN 201710041277A CN 106886915 B CN106886915 B CN 106886915B
Authority
CN
China
Prior art keywords
sampling
time
data
lambda
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710041277.2A
Other languages
English (en)
Other versions
CN106886915A (zh
Inventor
董守斌
黄淦
胡金龙
袁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710041277.2A priority Critical patent/CN106886915B/zh
Publication of CN106886915A publication Critical patent/CN106886915A/zh
Application granted granted Critical
Publication of CN106886915B publication Critical patent/CN106886915B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于时间衰减采样的广告点击预估方法,主体思想是从离测试集日期近的数据中多采样,离测试集日期远的数据中少采样,采样量依据时间的远近呈现一个渐变的趋势,通过将采样数据进行时间维度上的划分,构建出适合广告点击预估的训练数据,再通过多模型融合的方法,为广告点击预估构建出更加精准和有效的模型。本发明更能捕捉到时间更近的数据的特征,达到更好的预估效果,此类基于时间衰减的采样方法可以延伸到其他跟时间相关,基于时间序列的不平衡数据中,具有广泛的应用前景。

Description

一种基于时间衰减采样的广告点击预估方法
技术领域
本发明涉及广告点击预估领域,尤其是指一种基于时间衰减采样的广告点击预估方法。
背景技术
互联网在线广告将广告投放和实时的用户信息、媒体信息、上下文情景信息相结合,使得互联网在线广告投放具有技术导向和计算导向,广告可以进行精确的受众定向,每一次广告决策对每个用户的效果都是可衡量和经过精确计算的。对于每一个用户的广告请求,在服务器端都进行了用户与广告库中的广告的匹配,将最适合的广告投放给该用户,以获得更高的潜在广告点击率,得到更多有效点击,产生更多收益,这种模式通常需要先将用户进行数字化建模,用一个正确精准的模型去刻画互联网用户的方方面面,然后再用广告点击预估算法去求得模型计算所需要的权重。广告点击预估模型的构建需要基于过去积累的大量历史点击日志,利用用户历史点击日志进行大数据分析和数据挖掘方法,通过构建合适的广告点击预估的机器学习模型,进行广告点击率的预估,从而进行精准的广告投放。
在许多机器学习任务中,可能会出现目标类别分布不平衡现象,例如广告点击预估这种二分类问题中,训练集会存在某个类别数量远远大于另一个类别数量的情况,在这种类别不平衡问题中,如果直接进行建模,会造成结果偏向数量大的那一个类别,为了使得模型学习到数据的分布,需要解决这种类别不平衡问题。
对于不平衡的数据,传统的学习算法无法很好地发挥作用,针对这种问题,有从数据方面进行改善的解决方法。通过对原始数据进行采样,可以将原本不平衡的数据转化为较平衡的数据,随机采样是一种比较常见的改变数据类别分布的采样方法,随机采样又分为过采样和欠采样,过采样是通过多次有放回的方式,从少数类中抽取数据集,抽取出的数据要大于原来的少数类数据,然后再将抽取出的数据和原来的多数类数据结合,形成完整数据集;欠采样是指从多数类中随机抽取少量的样本,再和原本的少数类样本进行结合,形成完整数据集,根据从多数类中抽取少量样本是否放回,欠采样可以进而分为有放回欠采样和无放回欠采样。过采样和欠采样都是随机的采样方式,在组成完整数据集的过程中,每个样本被选择的机会均等,然而在某些情况下,数据集的时间新鲜度是一个影响训练出的模型的重要因素,应该要有某种采样方式,在随机采样的基础上,将时间因素考虑到采样方法中,从而训练出更加鲁棒的模型。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于时间衰减采样的广告点击预估方法,将时间因素融入采样方法中,此类基于时间衰减的采样方法可以延伸到其他跟时间相关,基于时间序列的不平衡数据中,具有广泛的应用前景。
为实现上述目的,本发明所提供的技术方案为:一种基于时间衰减采样的广告点击预估方法,包括以下步骤:
S1、数据清洗
对广告浏览/点击日志进行数据清洗,需要将后台的数据进行分析,将广告浏览/点击日志按标志分为RSET和CSET,RSET为所有浏览日志的集合,其每条日志标记为0,CSET是所有点击日志集合,其每条日志标记为1;在RSET中遍历每一条浏览日志,若对于一条浏览日志Ri,记Ri的点击时间为UNIX时间戳时间ti,用户ID为UIDi,广告ID为AIDi,设判别时间间隔阈值为π,如果在CSET中的ti+π范围内有UIDi和AIDi均相同的点击日志命中,则将该浏览日志Ri标记为1,如果不命中,则保持Ri的标记为0,最后集合RSET为清洗后的广告点击数据集;
S2、预处理
对构建的广告点击数据集RSET进行进一步过滤筛选、缺失值填补、异常值检测,具体如下:
S2.1、过滤筛选及缺失值填补
对广告点击数据集中不符合值的取值范围的数据进行去除处理,对广告点击日志的每个字段进行统计分析,对于一个字段,定义该字段在数据集中值为null或者空字符串的记录为该字段的缺失记录,记为n,记数据集RSET总记录数为N,记阈值为K则对于
Figure GDA0002451404070000031
超过预设阈值K的字段不进行保留,对于
Figure GDA0002451404070000032
比例在K之内的字段,将其缺失值赋予一个和该字段其他值都不同的新值,作为正常值使用;另外,对于数据中字段值冗余的情况,消除冗余值;
S2.2、异常值检测
对数据集中每一个用户ID进行总点击次数的统计,并进而统计总点击次数相同的用户的个数,记总点击次数集合为A={α12,...,αi,...,αn},记相应的用户个数集合为B={β12,...,βi,...,βn},假设αi和βi服从幂律分布,则logαi和logβi呈线性关系,将logαi和logβi作散点图,用直线去拟合,将从某个点开始偏离拟合线的总点击次数作为阈值ρ,将总点击次数αi大于ρ的用户作为异常用户,记正常用户集合为U,记异常用户集合为U',将异常用户集合U'产生的广告点击数据集合记为SET',将正常用户集合U产生的广告点击数据集合记为SET;
S3、时间衰减采样
从步骤S2的集合SET中选定连续的m天作为训练集,第m+1天作为测试集,针对训练集,将根据时间新鲜度计算得到的时间因子作为权重,分别计算训练集每天的抽样比例,将每天抽取的样本进行组合,形成整体的多份抽样样本;其中,依据时间衰减的抽样,具体过程如下:
选定连续的m天作为训练集,第m+1天作为测试集后,记m天中的第一天为T1,第m天为Tm,由此形成T1,T2,...,Tt,...,Tm的时间序列数据;根据日期新鲜度为采样引入时间因子,记λt为Tt那天的采样比例,则λt-1为Tt前一天的采样比例,λt+1为Tt后一天的采样比例;所述时间衰减采样即是λt-1<λt<λt+1的一种采样方式,其中λt由时间衰减函数计算所得,得到λt后,若Tt的少数类数量为s,则应该按照欠采样抽取出λts的多数类数量;
时间衰减采样有三个参数m,λ1和λm,这三个参数由人为指定,m为训练集所包含的日期的天数,λ1为第一天的采样比例,λm为第m天的采样比例,其中λ1与λm需要满足0<λ1<λm,不同的模型能够根据实际情况对这三个参数进行相应调优;本采样通过时间衰减函数来确定采样比例,时间衰减函数为λt=at2+b,人为确定λ1和λm,时间衰减函数中的参数a和b通过公式(1)(2)求出:
Figure GDA0002451404070000041
Figure GDA0002451404070000042
则,在给定m,λ1和λm下,时间衰减函数为公式(3):
Figure GDA0002451404070000043
因此,每一天的采样比例能够根据公式(3)得到;
确定了时间衰减函数,并通过时间衰减函数为Tt计算出相应的采样比例λt,由此能够得到训练集的时间衰减采样比例序列{λ12,...,λt,...,λm},根据采样比例序列{λ12,...,λt,...,λm}得到训练集的m份采样数据:记Tt的少数类集合为pt,多数类集合为qt,|qt|为qt包含的记录总数,然后根据采样比例λt从qt中随机抽取出λt|qt|数量的集合,记为qt';记从Tt采样出的数据集为St,则有St=pt∪q′t,记最终的第t份样本集为Dt,1≤t≤m,则Dt由公式
Figure GDA0002451404070000051
得到,如此就能够得到需要的m份抽样样本序列{D1,D2,...,Dt,...,Dm};
S4、混合模型构建
S4.1、正常用户建模
根据步骤S2的集合SET,得到步骤S3构建的m份抽样样本序列{D1,D2,...,Dt,...,Dm}后,分别为每个样本集Dt训练逻辑回归模型Mt,由此得到m个逻辑回归模型{M1,M2,...,Mt,...,Mm};
S4.2、异常用户建模
根据步骤S2的集合SET',确定和SET一样的训练集和测试集日期,用所有训练数据训练出逻辑回归模型M';
S4.3、点击预测
根据步骤S2得到的正常用户集合U,异常用户集合U',针对每一条用户浏览请求,若其用户UIDi∈U,记步骤S4.1的逻辑回归模型Mt的预测值为εt,使用时间衰减的方式进行广告点击概率的融合,将时间因子引进模型权重的计算中,根据采样比例序列{λ12,...,λt,...,λm}以及逻辑回归模型{M1,M2,...,Mt,...,Mm},在模型融合时,分别为每个逻辑回归模型Mt赋予时间衰减的参数,具体地,记采样比例序列元素之和为
Figure GDA0002451404070000052
将{λ12,...,λt,...,λm}的每一个元素进行归一化,记λt归一化之后的值为λt',则
Figure GDA0002451404070000053
记最终的预估概率值为E,则
Figure GDA0002451404070000054
若用户UIDi∈U',则直接用模型M'得到该用户的广告点击概率。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明利用幂律分布来模拟广告点击行为,并利用幂律分布来检测工业界广告点击数据的异常用户,能够用一种非常符合用户行为客观规律的方式来进行异常数据排除,并且阈值是依据数据而确定的,并不是一层不变的,提供一定的调节空间。异常用户包含潜在的日志数据异常以及点击作弊用户,利用本方法所述的方式可以很好地将异常数据和作弊用户排除出去,从而为模型构建提供较好的数据集。
2、本发明通过在采样中引入时间因子,对时间序列数据的不平衡问题提供了一种采样并尽量不失时间新鲜度的方法,通过采样降低了数据不平衡性,并依据时间新鲜度提高具有较近时间的数据比例,降低较远时间数据的比例。本方法不同于普通的欠采样、过采样等随机采样方式,用户只需要定义简单的两个参数,便可以由采样算法依据时间衰减函数自动去确定一种缓和下降的采样比例序列。通过这种方式,采样比例序列可以由用户动态调节,为模型构建提供一种调优参数。
3、本发明通过将时间因子引入模型融合的权重当中,为每个模型设置不同的融合权重,并且权重的设置与时间新鲜度相关,融合权重的序列可由用户动态调节。不同于常规的平均模型融合法,本方法通过赋予不同模型不同的融合权重,使得广告点击预估模型对更近的数据有更好的数据学习能力,更能捕捉到时间更近的数据的特征,从而达到更好的预估效果。
附图说明
图1为本发明方法的处理步骤流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所述的基于时间衰减采样的广告点击预估方法,包括以下步骤:
步骤S1、数据清洗
对广告浏览/点击日志进行数据清洗,需要将后台的数据进行分析,将广告浏览/点击日志按标志分为RSET和CSET,RSET为所有浏览日志的集合,其每条日志标记为0,CSET是所有点击日志集合,其每条日志标记为1。在RSET中遍历每一条浏览日志,若对于一条浏览日志Ri,记Ri的点击时间为UNIX时间戳时间ti,用户ID为UIDi,广告ID为AIDi,设判别时间间隔阈值为π,如果在CSET中的ti+π范围内有UIDi和AIDi均相同的点击日志命中,则将该浏览日志Ri标记为1,如果不命中,则保持Ri的标记为0,最后集合RSET为清洗后的广告点击数据集。
步骤S2、预处理
对构建的广告点击数据集RSET进行进一步过滤筛选、缺失值填补、异常值检测等预处理,具体如下:
步骤S2.1、过滤筛选及缺失值填补
对广告点击数据集中明显不符合值的取值范围的数据进行去除处理,对广告点击日志的每个字段进行统计分析,对于一个字段,定义该字段在数据集中值为null或者空字符串的记录为该字段的缺失记录,记为n,记数据集RSET总记录数为N,记阈值为K则对于
Figure GDA0002451404070000071
超过一定阈值K的字段不进行保留,对于
Figure GDA0002451404070000072
比例在K之内的字段,将其缺失值赋予一个和该字段其他值都不同的新值,作为正常值使用;另外,对于数据中字段值冗余的情况,消除冗余值。
步骤S2.2、异常值检测
对数据集中每一个用户ID进行总点击次数的统计,并进而统计总点击次数相同的用户的个数,记总点击次数集合为A={α12,...,αi,...,αn},记相应的用户个数集合为B={β12,...,βi,...,βn},假设αi和βi服从幂律分布,则logαi和logβi呈线性关系,将logαi和logβi作散点图,用直线去拟合,将从某个点开始明显偏离拟合线的总点击次数作为阈值ρ,将总点击次数αi大于ρ的用户作为异常用户,记正常用户集合为U,记异常用户集合为U',将异常用户集合U'产生的广告点击数据集合记为SET',将正常用户集合U产生的广告点击数据集合记为SET。
步骤S3、时间衰减采样
从步骤S2中的集合SET中选定连续的m天作为训练集,第m+1天作为测试集,针对训练集,将根据时间新鲜度计算得到的时间因子作为权重,分别计算训练集每天的抽样比例,将每天抽取的样本进行组合,形成整体的多份抽样样本。其中,依据时间衰减的抽样,具体过程如下:
选定连续的m天作为训练集,第m+1天作为测试集后,记m天中的第一天为T1,第m天为Tm,由此形成T1,T2,...,Tt,...,Tm的时间序列数据,根据日期新鲜度为采样引入时间因子,记λt为Tt那天的采样比例,则λt-1为Tt前一天的采样比例,λt+1为Tt后一天的采样比例。所述时间衰减采样即是λt-1<λt<λt+1的一种采样方式,其中λt由时间衰减函数计算所得,具体由下面内容阐述,得到λt后,若Tt的少数类数量为s,则应该按照欠采样抽取出λts的多数类数量。
时间衰减采样有三个参数m,λ1和λm,这三个参数由人为指定,m为训练集所包含的日期的天数,λ1为第一天的采样比例,λm为第m天的采样比例,其中λ1与λm需要满足0<λ1<λm,不同的模型可以根据实际情况对这三个参数进行相应调优。本采样通过时间衰减函数来确定采样比例,时间衰减函数为λt=at2+b,人为确定λ1和λm,时间衰减函数中的参数a和b可以通过公式(1)(2)求出:
Figure GDA0002451404070000091
Figure GDA0002451404070000092
则,在给定m,λ1和λm下,时间衰减函数为公式(3):
Figure GDA0002451404070000093
因此,每一天的采样比例可以根据公式(3)得到。
上面确定了时间衰减函数,并可以通过时间衰减函数为Tt计算出相应的采样比例λt,由此可以得到训练集的时间衰减采样比例序列{λ12,...,λt,...,λm},根据采样比例序列{λ12,...,λt,...,λm}得到训练集的m份采样数据:记Tt的少数类集合为pt,多数类集合为qt,|qt|为qt包含的记录总数,然后根据采样比例λt从qt中随机抽取出λt|qt|数量的集合,记为qt';记从Tt采样出的数据集为St,则根据本采样算法有St=pt∪q′t,记最终的第t份样本集为Dt,1≤t≤m,则Dt由公式
Figure GDA0002451404070000094
得到,如此可以得到算法需要的m份抽样样本序列{D1,D2,...,Dt,...,Dm}。
步骤S4、混合模型构建
步骤S4.1、正常用户建模
根据步骤S2的集合SET,得到步骤S3构建的m份抽样样本序列{D1,D2,...,Dt,...,Dm}后,分别为每个样本集Dt训练逻辑回归模型Mt,由此可以得到m个逻辑回归模型{M1,M2,...,Mt,...,Mm}。
步骤S4.2、异常用户建模
根据步骤S2的集合SET',确定好和SET一样的训练集和测试集日期,用所有训练数据训练出逻辑回归模型M'。
步骤S4.3、点击预测
根据步骤S2得到的正常用户集合U,异常用户集合U',针对每一条用户浏览请求,若其用户UIDi∈U,记步骤S4.1的逻辑回归模型Mt的预测值为εt,使用时间衰减的方式进行广告点击概率的融合,将时间因子引进模型权重的计算中,根据采样比例序列{λ12,...,λt,...,λm}以及逻辑回归模型{M1,M2,...,Mt,...,Mm},在模型融合时,分别为每个逻辑回归模型Mt赋予时间衰减的参数,具体地,记采样比例序列元素之和为
Figure GDA0002451404070000101
将{λ12,...,λt,...,λm}的每一个元素进行归一化,记λt归一化之后的值为λt',则
Figure GDA0002451404070000102
记最终的预估概率值为E,则
Figure GDA0002451404070000103
若用户UIDi∈U',则直接用模型M'得到该用户的广告点击概率。
综上所述,本发明将时间因素融入采样方法中,主体思想是从离测试集日期近的数据中多采样,离测试集日期远的数据中少采样,采样量依据时间的远近呈现一个渐变的趋势,通过将采样数据进行时间维度上的划分,构建出适合广告点击预估的训练数据,再通过多模型融合的方法,为广告点击预估构建出更加精准和有效的模型。此类基于时间衰减的采样方法可以延伸到其他跟时间相关,基于时间序列的不平衡数据中,具有广泛的应用前景,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (1)

1.一种基于时间衰减采样的广告点击预估方法,其特征在于,包括以下步骤:
S1、数据清洗
对广告浏览/点击日志进行数据清洗,需要将后台的数据进行分析,将广告浏览/点击日志按标志分为RSET和CSET,RSET为所有浏览日志的集合,其每条日志标记为0,CSET是所有点击日志集合,其每条日志标记为1;在RSET中遍历每一条浏览日志,若对于一条浏览日志Ri,记Ri的点击时间为UNIX时间戳时间ti,用户ID为UIDi,广告ID为AIDi,设判别时间间隔阈值为π,如果在CSET中的ti+π范围内有UIDi和AIDi均相同的点击日志命中,则将该浏览日志Ri标记为1,如果不命中,则保持Ri的标记为0,最后集合RSET为清洗后的广告点击数据集;
S2、预处理
对构建的广告点击数据集RSET进行进一步过滤筛选、缺失值填补、异常值检测,具体如下:
S2.1、过滤筛选及缺失值填补
对广告点击数据集中不符合值的取值范围的数据进行去除处理,对广告点击日志的每个字段进行统计分析,对于一个字段,定义该字段在数据集中值为null或者空字符串的记录为该字段的缺失记录,记为n,记数据集RSET总记录数为N,记阈值为K则对于
Figure FDA0002451404060000011
超过预设阈值K的字段不进行保留,对于
Figure FDA0002451404060000012
比例在K之内的字段,将其缺失值赋予一个和该字段其他值都不同的新值,作为正常值使用;另外,对于数据中字段值冗余的情况,消除冗余值;
S2.2、异常值检测
对数据集中每一个用户ID进行总点击次数的统计,并进而统计总点击次数相同的用户的个数,记总点击次数集合为A={α12,...,αi,...,αn},记相应的用户个数集合为B={β12,...,βi,...,βn},假设αi和βi服从幂律分布,则logαi和logβi呈线性关系,将logαi和logβi作散点图,用直线去拟合,将从某个点开始偏离拟合线的总点击次数作为阈值ρ,将总点击次数αi大于ρ的用户作为异常用户,记正常用户集合为U,记异常用户集合为U′,将异常用户集合U′产生的广告点击数据集合记为SET′,将正常用户集合U产生的广告点击数据集合记为SET;
S3、时间衰减采样
从步骤S2的集合SET中选定连续的m天作为训练集,第m+1天作为测试集,针对训练集,将根据时间新鲜度计算得到的时间因子作为权重,分别计算训练集每天的抽样比例,将每天抽取的样本进行组合,形成整体的多份抽样样本;其中,依据时间衰减的抽样,具体过程如下:
选定连续的m天作为训练集,第m+1天作为测试集后,记m天中的第一天为T1,第m天为Tm,由此形成T1,T2,...,Tt,...,Tm的时间序列数据;根据日期新鲜度为采样引入时间因子,记λt为Tt那天的采样比例,则λt-1为Tt前一天的采样比例,λt+1为Tt后一天的采样比例;所述时间衰减采样即是λt-1<λt<λt+1的一种采样方式,其中λt由时间衰减函数计算所得,得到λt后,若Tt的少数类数量为s,则应该按照欠采样抽取出λts的多数类数量;
时间衰减采样有三个参数m,λ1和λm,这三个参数由人为指定,m为训练集所包含的日期的天数,λ1为第一天的采样比例,λm为第m天的采样比例,其中λ1与λm需要满足0<λ1<λm,不同的模型能够根据实际情况对这三个参数进行相应调优;本采样通过时间衰减函数来确定采样比例,时间衰减函数为λt=at2+b,人为确定λ1和λm,时间衰减函数中的参数a和b通过公式(1)(2)求出:
Figure FDA0002451404060000031
Figure FDA0002451404060000032
则,在给定m,λ1和λm下,时间衰减函数为公式(3):
Figure FDA0002451404060000033
因此,每一天的采样比例能够根据公式(3)得到;
确定了时间衰减函数,并通过时间衰减函数为Tt计算出相应的采样比例λt,由此能够得到训练集的时间衰减采样比例序列{λ12,...,λt,...,λm},根据采样比例序列{λ12,...,λt,...,λm}得到训练集的m份采样数据:记Tt的少数类集合为pt,多数类集合为qt,|qt|为qt包含的记录总数,然后根据采样比例λt从qt中随机抽取出λt|qt|数量的集合,记为q′t;记从Tt采样出的数据集为St,则有St=pt∪q′t,记最终的第t份样本集为Dt,1≤t≤m,则Dt由公式
Figure FDA0002451404060000034
得到,如此就能够得到需要的m份抽样样本序列{D1,D2,...,Dt,...,Dm};
S4、混合模型构建
S4.1、正常用户建模
根据步骤S2的集合SET,得到步骤S3构建的m份抽样样本序列{D1,D2,...,Dt,...,Dm}后,分别为每个样本集Dt训练逻辑回归模型Mt,由此得到m个逻辑回归模型{M1,M2,...,Mt,...,Mm};
S4.2、异常用户建模
根据步骤S2的集合SET′,确定和SET一样的训练集和测试集日期,用所有训练数据训练出逻辑回归模型M′;
S4.3、点击预测
根据步骤S2得到的正常用户集合U,异常用户集合U′,针对每一条用户浏览请求,若其用户UIDi∈U,记步骤S4.1的逻辑回归模型Mt的预测值为εt,使用时间衰减的方式进行广告点击概率的融合,将时间因子引进模型权重的计算中,根据采样比例序列{λ12,...,λt,...,λm}以及逻辑回归模型{M1,M2,...,Mt,...,Mm},在模型融合时,分别为每个逻辑回归模型Mt赋予时间衰减的参数,具体地,记采样比例序列元素之和为
Figure FDA0002451404060000041
将{λ12,...,λt,...,λm}的每一个元素进行归一化,记λt归一化之后的值为λ′t,则
Figure FDA0002451404060000042
记最终的预估概率值为E,则
Figure FDA0002451404060000043
若用户UIDi∈U′,则直接用模型M′得到该用户的广告点击概率。
CN201710041277.2A 2017-01-17 2017-01-17 一种基于时间衰减采样的广告点击预估方法 Expired - Fee Related CN106886915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710041277.2A CN106886915B (zh) 2017-01-17 2017-01-17 一种基于时间衰减采样的广告点击预估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710041277.2A CN106886915B (zh) 2017-01-17 2017-01-17 一种基于时间衰减采样的广告点击预估方法

Publications (2)

Publication Number Publication Date
CN106886915A CN106886915A (zh) 2017-06-23
CN106886915B true CN106886915B (zh) 2020-07-28

Family

ID=59175858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710041277.2A Expired - Fee Related CN106886915B (zh) 2017-01-17 2017-01-17 一种基于时间衰减采样的广告点击预估方法

Country Status (1)

Country Link
CN (1) CN106886915B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563548B (zh) * 2018-03-19 2020-10-16 创新先进技术有限公司 异常检测方法及装置
CN108830176A (zh) * 2018-05-25 2018-11-16 深圳市太空科技南方研究院 一种睡眠觉醒检测方法、装置及终端
CN109325781A (zh) * 2018-09-04 2019-02-12 中国平安人寿保险股份有限公司 客户品质分析方法、装置、计算机设备和存储介质
CN109711907B (zh) * 2019-01-21 2022-09-23 南京大学 一种基于顶端排序的在线广告排序方法
CN111488517A (zh) * 2019-01-29 2020-08-04 北京沃东天骏信息技术有限公司 用于训练点击率预估模型的方法和装置
CN110222750A (zh) * 2019-05-27 2019-09-10 北京品友互动信息技术股份公司 目标受众浓度的确定方法及装置
CN110503207A (zh) * 2019-08-28 2019-11-26 深圳前海微众银行股份有限公司 联邦学习信用管理方法、装置、设备及可读存储介质
CN110992079A (zh) * 2019-11-08 2020-04-10 华南理工大学 一种基于时间序列填补的商品点击率预测方法
CN110827094B (zh) * 2019-11-15 2023-05-23 湖南快乐阳光互动娱乐传媒有限公司 广告投放的反作弊方法及系统
CN112016770A (zh) * 2020-10-21 2020-12-01 平安科技(深圳)有限公司 一种医保费用预测方法、装置、设备及存储介质
CN112861128A (zh) * 2021-01-21 2021-05-28 微梦创科网络科技(中国)有限公司 一种批量识别机器账号的方法及系统
CN113298642B (zh) * 2021-05-26 2024-02-23 上海晓途网络科技有限公司 一种订单检测方法、装置、电子设备及存储介质
CN116843388B (zh) * 2023-08-29 2023-11-17 新义互联(北京)科技有限公司 一种广告投放分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及系统
CN103489117A (zh) * 2012-06-12 2014-01-01 深圳市腾讯计算机系统有限公司 信息投放方法和系统
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法
CN105160548A (zh) * 2015-08-20 2015-12-16 北京奇虎科技有限公司 对广告点击率进行预测的方法及装置
CN106130756A (zh) * 2016-06-15 2016-11-16 晶赞广告(上海)有限公司 一种预测访问内容点击率的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150019347A1 (en) * 2013-03-15 2015-01-15 Nabil Naghdy Viewport based display of advertisements

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及系统
CN103489117A (zh) * 2012-06-12 2014-01-01 深圳市腾讯计算机系统有限公司 信息投放方法和系统
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法
CN105160548A (zh) * 2015-08-20 2015-12-16 北京奇虎科技有限公司 对广告点击率进行预测的方法及装置
CN106130756A (zh) * 2016-06-15 2016-11-16 晶赞广告(上海)有限公司 一种预测访问内容点击率的方法及装置

Also Published As

Publication number Publication date
CN106886915A (zh) 2017-06-23

Similar Documents

Publication Publication Date Title
CN106886915B (zh) 一种基于时间衰减采样的广告点击预估方法
CN109389494B (zh) 借贷欺诈检测模型训练方法、借贷欺诈检测方法及装置
Efstratiadis et al. One decade of multi-objective calibration approaches in hydrological modelling: a review
KR102009309B1 (ko) 금융상품 관리자동화 시스템 및 관리자동화 방법
CN104321794B (zh) 一种使用多维评级来确定一实体的未来商业可行性的系统和方法
CN106960358A (zh) 一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统
CN109815631A (zh) 一种游戏数据的处理方法和装置
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN115577152B (zh) 基于数据分析的在线图书借阅管理系统
CN108182597A (zh) 一种基于决策树和逻辑回归的点击率预估方法
CN110866832A (zh) 一种风险控制方法、系统、存储介质及计算设备
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
CN111090833A (zh) 一种数据处理方法、系统及相关设备
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN109934469A (zh) 基于异源交叉回归分析的停电敏感度预警方法及装置
CN109785002A (zh) 一种用户游戏内付费预测方法
CN113570398A (zh) 推广数据处理方法、模型训练方法、系统和存储介质
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN114004691A (zh) 基于融合算法的额度评分方法、装置、设备及存储介质
CN110738565A (zh) 基于数据集合的房产金融人工智能复合风控模型
CN116523293A (zh) 基于融合行为流程图特征的用户风险评估方法
CN115545342A (zh) 一种企业电费回收的风险预测方法与系统
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控系统
CN114092216A (zh) 企业信贷评级方法、装置、计算机设备和存储介质
CN113592140A (zh) 电费缴纳预测模型训练系统和电费缴纳预测模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200728

CF01 Termination of patent right due to non-payment of annual fee