CN106156878B - 广告点击率矫正方法及装置 - Google Patents

广告点击率矫正方法及装置 Download PDF

Info

Publication number
CN106156878B
CN106156878B CN201510191670.0A CN201510191670A CN106156878B CN 106156878 B CN106156878 B CN 106156878B CN 201510191670 A CN201510191670 A CN 201510191670A CN 106156878 B CN106156878 B CN 106156878B
Authority
CN
China
Prior art keywords
value
predicted
predicted value
values
advertisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510191670.0A
Other languages
English (en)
Other versions
CN106156878A (zh
Inventor
姜磊
李勇
肖磊
刘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201510191670.0A priority Critical patent/CN106156878B/zh
Priority to PCT/CN2016/079188 priority patent/WO2016169427A1/zh
Publication of CN106156878A publication Critical patent/CN106156878A/zh
Priority to US15/455,356 priority patent/US20170186030A1/en
Application granted granted Critical
Publication of CN106156878B publication Critical patent/CN106156878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0244Optimization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种广告点击率矫正方法及装置,属于计算机技术领域。所述方法包括:利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值;根据存储的日志数据查询各个训练样本的观测值;根据各个训练样本的观测值计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值。本发明通过对训练样本所对应的预测的点击率进行矫正,获取各个预测值的矫正值,解决现有技术中PCTR单元在进行点击率预测时,由于训练数据巨大,造成预测CTR和真实CTR的差异的问题;达到了减少了预测点击率和真实点击率之间的差异,提高了为用户推送广告的命中率的效果。

Description

广告点击率矫正方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种广告点击率矫正方法及装置。
背景技术
广告商在投放广告时,通常要求投放的广告具有较高的点击率(英文:Click-Through-Rate,简称:CTR),以保证广告的有效推广。
广告投放系统在进行广告投放时,通常会根据搜集的用户数据、日志数据以及广告数据来为用户推送广告。当一个用户请求到广告投放系统时,为了给用户推送该用户最可能点击的广告,广告投放系统中的Retrieve单元根据该用户的用户数据中的基础信息以及广告数据中的定向信息筛选出一定数量的广告(一般为几千到上万级);然后,在广告投放系统中Scoring单元中根据广告的点击率、用户兴趣行为特征以及用户与广告的相关性等对筛选出的广告进行初选(一般为几百之内);再然后,在点击率预测PCTR单元中利用建立好的分群热度模型和逻辑回归模型(logistic regression)对初选出的广告进行精选,即对各个广告的点击率进行预测,根据预测的点击率进行排名,筛选出预定个的点击率较高的广告;最后,在优化单元中利用优选标准提取出最优的广告。广告投放系统会将提取出的最优的广告推送给用户,根据广告投放系统的上述筛选,该推送给用户的广告能被用户点击的可能性比较高。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:PCTR单元在进行点击率预测时,由于训练数据巨大(一般为千分位量级),因此会对训练样本中的正负样本进行非等比例抽样,造成预测CTR和真实CTR的差异。
发明内容
为了解决现有技术中PCTR单元在进行点击率预测时,由于训练数据巨大,对训练样本中的正负样本进行非等比例抽样,造成预测CTR和真实CTR的差异的问题,本发明实施例提供了一种广告点击率矫正方法及装置。所述技术方案如下:
第一方面,提供了一种广告点击率矫正方法,所述方法包括:
广告投放服务器利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值;
所述广告投放服务器根据存储的日志数据查询各个训练样本的观测值,所述观测值用于指示训练样本中用户是否对所述训练样本中的广告进行点击;
所述广告投放服务器根据各个训练样本的观测值计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,所述矫正值用于在向用户进行广告推荐时替换与所述矫正值对应的预测值,所述矫正值的数量级与实际点击率的数量级相同,所述相邻的两个预测值中所述在前预测值小于或等于所述在后预测值。
可选的,所述广告投放服务器根据各个训练样本的观测值计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,包括:
所述广告投放服务器在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将所述矫正值赋值为所述预测值的观测值;
所述广告投放服务器按照递增顺序排列各个训练样本的预测值;
对于相邻的任意两个预测值,所述广告投放服务器检测在前预测值的矫正值是否大于在后预测值的矫正值;
当所述在前预测值的矫正值大于所述在后预测值的矫正值时,所述广告投放服务器则计算所述两个预测值的矫正值的平均值,将所述在前预测值的矫正值以及所述在后预测值的矫正值均更新为所述平均值。
可选的,所述广告投放服务器根据各个训练样本的观测值计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,包括:
所述广告投放服务器统计每个预测值的数量;
对于每个预测值,所述广告投放服务器根据所述预测值所对应的各个观测值计算点击率,所述点击率是所述预测值所对应的所有观测值中用于指示用户点击训练样本的观测值的数量除以所述预测值所对应的所有观测值的数量;
所述广告投放服务器在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将所述矫正值赋值为计算得到的所述预测值的点击率;
所述广告投放服务器按照递增顺序排列各个预测值,每相邻的两个预测值中在前预测值小于在后预测值;
对于相邻的任意两个预测值,所述广告投放服务器检测在前预测值的矫正值是否大于在后预测值的矫正值;
当所述在前预测值的观测值大于所述在后预测值的观测值时,所述广告投放服务器则利用预定公式计算两个预测值的矫正值的加权平均值,将所述在前预测值的矫正值以及所述在后预测值的矫正值均更新为所述加权平均值。
可选的,所述预定公式为:
fw=(wi*fi+wi+1*fi+1)/(wi+wi+1),
其中,fw为所述在前预测值的矫正值和所述在后预测值的矫正值的加权平均值,wi为在所述前预测值的数量,fi为所述在前预测值的更新前的矫正值,wi+1为所述在后预测值的数量,fi+1为所述在后预测值的更新前的矫正值。
可选的,所述方法还包括:
所述广告投放服务器将各个预测值以及与所述预测值对应的矫正值之间的对应关系存储至所述广告投放服务器的点击率预测单元中;
其中,每组对应关系包括预测值和与所述预测值对应的矫正值,或者每组对应关系包括矫正值与所述矫正值对应的各个预测值组成的范围。
可选的,所述方法还包括:
所述广告投放服务器在接收到一个用户的广告投放请求时,利用所述点击率预测单元中的逻辑回归模型,为所述用户预测所述用户点击各个初选出的广告的预测值;
所述广告投放服务器根据所述点击率预测单元中存储的所述对应关系,查找出与各个所述预测值对应的矫正值;
所述广告投放服务器利用查找到的各个所述矫正值替换各个所述预测值。
第二方面,提供了一种广告点击率矫正装置,应用于广告投放服务器中,所述装置包括:
第一预测模块,用于利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值;
查询模块,用于根据存储的日志数据查询各个训练样本的观测值,所述观测值用于指示训练样本中用户是否对所述训练样本中的广告进行点击;
计算模块,用于根据各个训练样本的观测值计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,所述矫正值用于在向用户进行广告推荐时替换与所述矫正值对应的预测值,所述矫正值的数量级与实际点击率的数量级相同,所述相邻的两个预测值中所述在前预测值小于或等于所述在后预测值。
可选的,所述计算模块,包括:
第一赋值模块,用于在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将所述矫正值赋值为所述预测值的观测值;
第一排序模块,用于按照递增顺序排列各个训练样本的预测值;
第一检测子模块,用于对于相邻的任意两个预测值,检测在前预测值的矫正值是否大于在后预测值的矫正值;
第一确定子模块,用于在所述第一检测子模块检测到所述在前预测值的矫正值大于所述在后预测值的矫正值时,则计算所述两个预测值的矫正值的平均值,将所述在前预测值的矫正值以及所述在后预测值的矫正值均更新为所述平均值。
可选的,所述计算模块,包括:
统计子模块,用于统计每个预测值的数量;
计算子模块,用于对于每个预测值,根据所述预测值所对应的各个观测值计算点击率,所述点击率是所述预测值所对应的所有观测值中用于指示用户点击训练样本的观测值的数量除以所述预测值所对应的所有观测值的数量;
第二赋值模块,用于在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将所述矫正值赋值为计算得到的所述预测值的点击率;
第二排序模块,用于按照递增顺序排列各个预测值,每相邻的两个预测值中在前预测值小于在后预测值;
第二检测子模块,用于对于相邻的任意两个预测值,检测在前预测值的矫正值是否小于或等于在后预测值的矫正值;
第二确定子模块,用于在所述第二检测子模块检测到所述在前预测值的矫正值大于所述在后预测值的矫正值时,所述广告投放服务器则利用预定公式计算两个预测值的矫正值的加权平均值,将所述在前预测值的矫正值以及所述在后预测值的矫正值均更新为所述加权平均值。
可选的,所述预定公式为:
fw=(wi*fi+wi+1*fi+1)/(wi+wi+1),
其中,fw为所述在前预测值的观测值和所述在后预测值的观测值的加权平均值,wi为在所述前预测值的数量,fi为所述在前预测值的更新前的矫正值,wi+1为所述在后预测值的数量,fi+1为所述在后预测值的更新前的矫正值。
可选的,所述装置还包括:
存储模块,用于将各个预测值以及与所述预测值对应的矫正值之间的对应关系存储至所述广告投放服务器的点击率预测模块中;
其中,每组对应关系包括预测值和与所述预测值对应的矫正值,或者每组对应关系包括矫正值与所述矫正值对应的各个预测值组成的范围。
可选的,所述装置还包括:
第二预测模块,用于在接收到一个用户的广告投放请求时,利用所述点击率预测模块中的逻辑回归模型,为所述用户预测所述用户点击各个初选出的广告的预测值;
查找模块,用于根据所述点击率预测模块中存储的所述对应关系,查找出与各个所述预测值对应的矫正值;
替换模块,用于利用查找到的各个所述矫正值替换各个所述预测值。
本发明实施例提供的技术方案带来的有益效果是:
通过对训练样本所对应的预测的点击率进行矫正,获取各个预测值的矫正值,由于矫正值更贴近于用户的点击率,在利用矫正值替换预测值来为用户推送广告时,更能够增加为用户推送的广告被点击的概率,因此解决现有技术中PCTR单元在进行点击率预测时,由于训练数据巨大,对训练样本中的正负样本进行非等比例抽样,造成预测CTR和真实CTR的差异的问题;达到了减少了预测点击率和真实点击率之间的差异,提高了为用户推送广告的命中率的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明部分实施例中提供的广告投放服务器的结构示意图;
图2是本发明一个实施例中提供的广告点击率矫正方法的方法流程图;
图3A是本发明另一个实施例中提供的广告点击率矫正方法的方法流程图;
图3B是本发明一个实施例中提供的获取矫正值的示意图;
图4A是本发明再一个实施例中提供的广告点击率矫正方法的方法流程图;
图4B是本发明另一个实施例中提供的获取矫正值的示意图;
图5是本发明一个实施例中提供的广告点击率矫正装置的结构方框图;
图6是本发明另一个实施例中提供的广告点击率矫正装置的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参见图1所示,其示出了本发明部分实施例中提供的广告投放服务器的结构示意图。该广告投放服务器包括广告投放单元11、前端投放单元12、流式计算单元13、检索单元14、初选单元15、点击率预测单元16和优化单元17,该广告投放服务器中获取并存储有用户数据、日志数据和广告数据。
(1)广告投放单元11,用于接收各个广告提供商提供的将要投放的广告,并接收各个广告的数据,比如广告定向、广告属性等信息,并存储每个广告的广告数据。
(2)前端投放单元12,用于在接收到用户的投放请求后,为用户投放广告。在接收用户的投放请求时,获取用户的用户数据,将用户的用户数据发送给检索单元14。
(3)流式计算单元13,用于对广告投放单元11投放的广告的信息进行提取,对前端投放单元12的用户的信息进行提取,或进行一些其他必要的计算。
(4)检索单元14(即Retrieve单元),该检索单元14提供广告检索功能。每天在线广告数在十万到百万级,一个用户请求到广告投放系统时,检索单元14会根据广告定向信息进行倒排序,根据用户基础信息索引广告。此时召回命中的广告数大大减少,数量在几千到上万级,由初选单元15处理。
(5)初选单元15(即Scoring单元),该初选单元15提供广告初选功能。初选单元15召回的广告在上万数量级,广告系统无法在毫秒级对上万的广告预估点击率。初选单元15会根据广告点击率(英文:Click-Through-Rate,简称:CTR)和(英文:Effective Cost PerMille,简称:ECPM),用户兴趣行为特征,以及用户与广告的相关性,对广告进行初选。此时初选的广告数量在几百之内,由点击率预测单元16进一步处理。
(6)点击率预测单元16(即PCTR单元),该点击率预测单元16提供广告CTR预估功能。初选单元15初选的广告会在该点击率预测单元16内预估CTR。目前预估CTR采用的模型一般包括:分群热度模型,即根据用户基础属性,例如年龄、性别划分用户人群,统计各个人群排名靠前的点击率;逻辑回归模型(logistic regression),即根据用户属性、广告基性、广告位属性、以及用户、广告位、广告交叉属性建立逻辑回归模型;决策树模型,同样根据用户属性、广告基性、广告位属性、以及用户、广告位、广告交叉属性建立树形模型。其中的逻辑回归模型对初选的广告的点击率进行预测,得到广告的预测值。
(7)优化单元17(即Reranking单元),该优化单元17提供收入优化功能。优化单元17主要将点击率预测单元16预估结果作系统优化目标转换。目前的收费模式有CPC(CostPer Click,按点击计费)、CPA(Cost Per Action,按效果计费)、CPM(Cost Per thousandImpressions,按千次展示计费),优化单元17采用eCPM=CTR*CPC将收入最大化,同时还需要进行一些新鲜度控制等。
(8)用户数据,是指请求广告投放的用户的相关信息,比如性别、年龄、爱好等。
(9)日志数据,是指用户浏览广告的信息,比如日志数据可以包括用户表示、广告标识、点击率预测单元16为该用户(该用户标识所指示的用户)点击该广告(该广告标识所指示的广告)的预测值、用于指示该用户是否实际点击该广告的点击参数。
(10)广告数据,是指该广告的相关信息,比如受众人群、该广告的类型、广告位等信息。
请参见图2所示,其示出了本发明一个实施例中提供的广告点击率矫正方法的方法流程图,该广告点击率矫正方法主要以应用于图1所示的广告投放服务器中进行举例说明,该广告点击率矫正方法包括:
步骤201,广告投放服务器利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值。
预测值是广告投放服务器中的点击率预测单元对训练样本的点击率进行预测的值。
一般的,一个训练样本包括一个用户和一个投放广告。对应的,一个训练样本的预测值为对该训练样本中的用户点击该训练样本中的广告的点击概率进行预测得到的值。
逻辑回归模型(logistic regression)是广告投放服务器中现有的模型,且属于本领域的普通技术人员都能够实现的,这里就不再赘述。
步骤202,广告投放服务器根据存储的日志数据查询各个训练样本的观测值,该观测值用于指示训练样本中用户是否对该训练样本中的广告进行点击。
日志数据通常包括用户标识、广告标识(也可称为订单)、预测值和点击参数,所述点击参数用于指示具有所述用户标识的用户是否点击具有所述广告标识的广告。
一个训练样本的观测值一般是用于指示该训练样本中的用户对该训练样本中的广告是否进行过点击。
步骤203,广告投放服务器根据各个训练样本的观测值计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,该矫正值用于在向用户进行广告推荐时替换与该矫正值对应的预测值,相邻的两个预测值中在前预测值小于或等于在后预测值。
矫正值的数量级与实际点击率的数量级相同,实际点击率是指用户实际点击的概率。一般的实际点击率位于0和1之间,计算得到的矫正值也位于0和1之间。
根据上述校正方式可以得知:预测值小的,其对应的矫正值也会小,预测值大的,其对应的矫正值也会大。由此可知,矫正值的递增走向与预测值的递增走向相同,且矫正值的数量级和实际点击率的数量级也是相同的,因此从矫正值更能反映用户的实际点击需求。
综上所述,本发明实施例提供的广告点击率矫正方法,通过对训练样本所对应的预测的点击率进行矫正,获取各个预测值的矫正值,由于矫正值的数量级更贴近于用户的点击率的数量级,且矫正值的递增走向与预测值的递增走向也相同,在利用矫正值替换预测值来为用户推送广告时,更能够增加为用户推送的广告被点击的概率,因此解决现有技术中PCTR单元在进行点击率预测时,由于训练数据巨大,对训练样本中的正负样本进行非等比例抽样,造成预测CTR和真实CTR的差异的问题;达到了减少了预测点击率和真实点击率之间的差异,提高了为用户推送广告的命中率的效果。
请参见图3A所示,其示出了本发明另一个实施例中提供的广告点击率矫正方法的方法流程图,该广告点击率矫正方法主要以应用于图1所示的广告投放服务器中进行举例说明,该广告点击率矫正方法包括:
步骤301,广告投放服务器利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值。
预测值是广告投放服务器中的点击率预测单元对训练样本的点击率进行预测的值。
一般的,一个训练样本包括一个用户和一个投放广告。对应的,一个训练样本的预测值为对该训练样本中的用户点击该训练样本中的广告的点击概率进行预测得到的值。
这里所讲的逻辑回归模型可以将用户的相关数据以及广告的相关数据进行量化,并根据每类数据的权重以及量化后的数据输出用户对广告的点击率的预测值。由于逻辑回归模型是广告投放领域中用于预测训练样本的点击率的常用模型,这里就不再赘述。
步骤302,该广告投放服务器根据存储的日志数据查询各个训练样本的观测值,该观测值用于指示训练样本中用户是否对该训练样本中的广告进行点击。
日志数据通常包括用户标识、广告标识(也可称为订单)、预测值和点击参数,所述点击参数用于指示具有所述用户标识的用户是否点击具有所述广告标识的广告。
当用户请求广告投放服务时,广告投放服务器会根据用户的历史数据以及广告的信息为用户推荐广告,即将该广告在用户端进行曝光,用户可以选中点击该广告。对应的,用户的使用行为可以生成一条日志数据,该条日志数据包括用户的标识、曝光的广告的标识、广告投放服务器在为用户投放该广告时为该广告预测的预测值和用户是否点击该广告的点击参数。
可选的,当用户点击该广告,则日志数据中的点击参数为1或0中的一种,当用户没有点击该广告,则日志数据中的点击参数为1或0中的另一种。
下述各个实施例中以点击参数为1时用于指示用户点击广告,点击参数为0时用于指示用户未点击广告为例进行说明。
观测值是指用户对广告的实际操作,比点击或未点击。因此,根据日志数据中的点击参数即得到观测值,也即当点击参数为1时,观测值即为1,当点击参数为0时,则观测值为0。
步骤303,该广告投放服务器在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将该矫正值赋值为该预测值的观测值。
也即将各个预测值的矫正值均初始化为与预测值对应的观测值。也即在调整矫正值之前,各个预测值的观测值和矫正值均相同。
步骤304,该广告投放服务器按照递增顺序排列各个训练样本的预测值。
也即任意相邻的两个预测值中,在前的预测值小于或等于在后的预测值。
这里各个训练样本的预测值的数量与训练样本的数量相同,也即一个训练样本对应一个预测值,这些预测值可以相同,也可以不同。
步骤305,对于相邻的任意两个预测值,该广告投放服务器检测在前预测值的矫正值是否大于在后预测值的矫正值。
也就是说,对于任意两个相邻的预测值中,在前预测值小于或等于在后预测值,并检测在前预测值的矫正值是否大于在后预测值的矫正值。
步骤306,当该在前预测值的矫正值小于或等于该在后预测值的矫正值时,该广告投放服务器则维持该在前预测值的矫正值和该在后预测值的矫正值不变。
举例来讲,对于任意相邻的两个预测值xi和xi+1,其对应的观测值分别为yi和yi+1,更新前的矫正值分别为fi和fi+1,在求更新后的矫正值fi’和fi+1’时,检测fi是否小于或等于fi+1
当fi≤fi+1,维持fi和fi+1不变,即fi’=fi,fi+1’=fi+1,其中1<i≤n-1,n为预测值的总数量。
步骤307,当该在前预测值的矫正值大于该在后预测值的矫正值时,该广告投放服务器则计算该两个预测值的矫正值的平均值,将该在前预测值的矫正值以及该在后预测值的矫正值均更新为该平均值。
当fi’>fi+1’,则fi’=fi+1’=(fi+fi+1)/2。
根据上述步骤304至步骤306计算得到各个预测值的矫正值,且经过迭代最终计算出的任意相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值。
举例来讲,请参见图3B所示,其是本发明一个实施例中提供的获取矫正值的示意图。在图3B中,x表示预测值,y表示预测值的观测值,f表示预测值的矫正值。
在图3B的(a)中,存在5个预测值0、1、2、3、4(这里仅是示例性举例,以表示预测值递增的顺序,在实际应用中,预测值可以为大于1的数,也可以为小于1的数),这5个预测值所对应的观测值分别为1、0、0、1、0,各个预测值的矫正值被观测值初始化后分别为1、0、0、1、0。
请参见图3B中的(b)所示的步骤(1),对于前两个预测值0和预测值1来讲,由于预测值0的矫正值1大于预测值1的矫正值0,因此求矫正值1和矫正值0的平均值,即0.5,并将0.5作为预测值0和预测值1更新后的矫正值。
请参见图3B中的(c)所示的步骤(2),由于预测值1的矫正值0.5大于预测值2的矫正值0,因此,对预测值1的矫正值和预测值2的矫正值求平均,即0.25,并将0.25作为预测值1和预测值2更新后的矫正值。
请参见图3B中的(d)所示的步骤(3),由于预测值0的矫正值0.5大于预测值1的矫正值0.25,因此对预测值0的矫正值和预测值1的矫正值求平均,即0.375,并将0.375作为预测值0和预测值1更新后的矫正值。
依序做判断,相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值。请参见图3B中的(e),在前的矫正值均小于或等于在后的矫正值。
由步骤305至步骤307可知,矫正值是根据实际预测值的平均计算得到的,因此矫正值的数量级低于实际预测值的数量级一个等级,也即预测值的数量级为个位,矫正值则均位于0至1之间,也因此矫正值更能反映用户实际的点击率。
综上所述,本发明实施例提供的广告点击率矫正方法,通过对训练样本所对应的预测的点击率进行矫正,获取各个预测值的矫正值,由于矫正值的数量级更贴近于用户的点击率的数量级,且矫正值的递增走向与预测值的递增走向也相同,在利用矫正值替换预测值来为用户推送广告时,更能够增加为用户推送的广告被点击的概率,因此解决现有技术中PCTR单元在进行点击率预测时,由于训练数据巨大,对训练样本中的正负样本进行非等比例抽样,造成预测CTR和真实CTR的差异的问题;达到了减少了预测点击率和真实点击率之间的差异,提高了为用户推送广告的命中率的效果。
由于预测值经过逻辑回归模型的计算后,预测值的数量级与实际的观测值的数量级可能会差别很大,比如预测值可能为上千的数量级,此时并不便于广告投放商的查看;而利用上述方法以及实际的观测值来确定预测值的矫正值时,可以保证矫正值和实际点击率位于相同的数量级,比如一般的实际点击率位于0和1之间,计算得到的矫正值位于0和1之间,这样更便于广告投放商的查看和统计。
请参见图4A所示,其示出了本发明再一个实施例中提供的广告点击率矫正方法的方法流程图,该广告点击率矫正方法主要以应用于图1所示的广告投放服务器中进行举例说明,该广告点击率矫正方法包括:
步骤401,广告投放服务器利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值。
步骤402,该广告投放服务器根据存储的日志数据查询各个训练样本的观测值,该观测值用于指示训练样本中用户是否对该训练样本中的广告进行点击。
步骤401和步骤402分别与步骤301和步骤302类似,具体请参见对步骤301和步骤302的描述,这里就不再赘述。
步骤403,该广告投放服务器统计每个预测值的数量。
由于对不同训练样本进行预测时,得到的预测值可能相同,比如预测值为0.3的数量为100,预测值为20的数量为200等。
为了减少重复计算,可以将相同的预测值进行合并,并利用合并后的预测值以及预测值所对应的数量计算各个预测值的矫正值。
步骤404,对于每个预测值,该广告投放服务器根据该预测值所对应的各个观测值计算点击率。
该点击率是该预测值所对应的所有观测值中用于指示用户点击训练样本的观测值的数量除以该预测值所对应的所有观测值的数量。
举例来讲,当一个预测值所对应的所有观测值的数量为100,其中观测值中用于指示用于点击训练样本的观测值的数量为20,则点击率为20/100=0.2,即该预测值所对应的点击率为0.2。
步骤405,该广告投放服务器在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将该矫正值赋值为计算得到的该预测值的点击率。
也即对于每个训练样本的预测值的矫正值,将该预测值的矫正值均初始化为与该预测值对应的点击率(这里的点击率用于表明用户点击广告的实际的观测值)。也即在调整矫正值之前,各个预测值的观测值和矫正值均相同。
步骤406,该广告投放服务器按照递增顺序排列各个预测值,每相邻的两个预测值中在前预测值小于在后预测值。
由于对预测值进行了合并,因此这里的各个预测值均是数值不同的预测值,也即每相邻的两个预测值中在前预测值小于在后预测值,每个预测值对应有一个观测值和数量值。
步骤407,对于相邻的任意两个预测值,该广告投放服务器检测在前预测值的矫正值是否大于在后预测值的矫正值。
步骤408,当该在前预测值的矫正值小于或等于该在后预测值的矫正值时,该广告投放服务器则维持该在前预测值的矫正值和该在后预测值的矫正值不变。
举例来讲,对于任意相邻的两个预测值xi和xi+1,其对应的点击率(实际的观测值)分别为yi和yi+1,其对应的数量值分别为wi和wi+1,更新前的矫正值分别为fi和fi+1,在求更新后的矫正值fi’和fi+1’时,检测fi是否小于或等于fi+1
当fi≤fi+1,维持fi和fi+1不变,即fi’=fi,fi+1’=fi+1,其中1<i≤n-1,n为预测值的总数量。
步骤409,当该在前预测值的矫正值大于该在后预测值的矫正值时,该广告投放服务器则利用预定公式计算两个预测值的矫正值的加权平均值,将该在前预测值的矫正值以及该在后预测值的矫正值均更新为该加权平均值。
这里所讲的预定公式可以为:
fw=(wi*fi+wi+1*fi+1)/(wi+wi+1),
其中,fw为该在前预测值的观测值和该在后预测值的观测值的加权平均值,wi为在该前预测值的数量,fi为该在前预测值的更新前的观测值,wi+1为该在后预测值的数量,fi+1为该在后预测值的更新前的观测值。
根据上述步骤407至步骤409计算得到各个预测值的矫正值,且经过迭代最终计算出的任意相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值。
举例来讲,请参见图4B所示,其是本发明另一个实施例中提供的获取矫正值的示意图。在图4B中,x表示预测值,y表示预测值的观测值,f表示预测值的矫正值,w表示相同预测值的数量。
在图4B的(a)中,存在5个预测值分别为0、1、2、3、4(这里仅是示例性举例,以表示预测值递增的顺序,在实际应用中,预测值可以为大于1的数,也可以为小于1的数),这5个预测值所对应的观测值分别为0.1、0、0、0.1、0,各个预测值的矫正值被观测值初始化后分别为0.1、0、0、0.1、0。这5个预测值的数量分别为100、200、300、200和100。
请参见图4B中的(b)所示的步骤(1),对于前两个预测值0和预测值1来讲,由于预测值0的矫正值0.1大于预测值1的矫正值0,因此求矫正值0.1和矫正值0的加权平均值,即0.033,并将0.033作为预测值0和预测值1更新后的矫正值。
请参见图4B中的(c)所示的步骤(2),由于预测值1的矫正值0.033大于预测值2的矫正值0,因此,对预测值1的矫正值和预测值2的矫正值求加权平均,即0.132,并将0.132作为预测值1和预测值2更新后的矫正值。
请参见图4B中的(d)所示的步骤(3),由于预测值0的矫正值0.033大于预测值1的矫正值0.132,因此对预测值0的矫正值和预测值1的矫正值求加权平均,即0.099,并将0.099作为预测值1和预测值更新后的矫正值。
依序做判断,相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值。请参见图4B中的(e),在前的矫正值均小于或等于在后的矫正值。
由步骤406至步骤409可知,矫正值是根据实际点击率的加权平均计算得到的,因此矫正值的数量级与实际点击率的数量级相同,也即矫正值和实际点击率均位于0至1之间,也因此矫正值更能反映用户实际的点击率。
综上所述,本发明实施例提供的广告点击率矫正方法,通过对训练样本所对应的预测的点击率进行矫正,获取各个预测值的矫正值,由于矫正值的数量级更贴近于用户的点击率的数量级,且矫正值的递增走向与预测值的递增走向也相同,在利用矫正值替换预测值来为用户推送广告时,更能够增加为用户推送的广告被点击的概率,因此解决现有技术中PCTR单元在进行点击率预测时,由于训练数据巨大,对训练样本中的正负样本进行非等比例抽样,造成预测CTR和真实CTR的差异的问题;达到了减少了预测点击率和真实点击率之间的差异,提高了为用户推送广告的命中率的效果。
由于可以将相同值的预测值进行合并,因为可以大大减少在计算矫正时的计算量,从而大大缩短了向用户推送广告的时长,提高了广告推送效率和用户体验。
由于预测值经过逻辑回归模型的计算后,预测值的数量级与实际的观测值的数量级可能会差别很大,比如预测值可能为上千的数量级,此时并不便于广告投放商的查看;而利用上述方法以及实际点击率来确定预测值的矫正值时,可以保证矫正值和实际点击率位于相同的数量级,比如一般的实际点击率位于0和1之间,计算得到的矫正值位于0和1之间,这样更便于广告投放商的查看和统计。
在一种可选的实现方式中,为了能够使得矫正值可以被广告投放服务器使用,广告投放服务器将各个预测值以及与该预测值对应的矫正值之间的对应关系存储至该广告投放服务器的点击率预测单元中。
在利用图3A中所示的实施方式获取得到的矫正值时,存储的每组关系可以包括预测值和与该预测值对应的矫正值。
在利用图4A中所示的实施方式获取得到的矫正值时,存储的每组关系可以包括矫正值与该矫正值对应的各个预测值组成的范围。
本发明各个实施例的目的是确定预测值的矫正值,以便于在前端投放单元12需要为用户推送广告时,点击率预测单元16可以针对各个初选出的样本广告,为该用户预估出预测值,并根据存储的预测值与矫正值之间的对应关系,确定出各个矫正值,点击率预测单元16然后利用矫正值来代替原有的预测值对广告进行精选,并将精选后的广告发送给优化单元17,由优化单元17为该用户推送一个优选的广告。
也就是说,当广告投放服务器在接收到一个用户的广告投放请求时,利用该点击率预测单元中的逻辑回归模型,为该用户预测该用户点击各个初选出的广告的预测值;该广告投放服务器根据该点击率预测单元中存储的该对应关系,查找出与各个该预测值对应的矫正值;该广告投放服务器利用查找到的各个该矫正值替换各个该预测值。然后广告投放服务器可以按照现有的后续流程为该用户投放广告。
预测值的数量级则由于受到逻辑回归模型等的修正、放大、调整等方式可能会达到十几、上百甚至上千级,与用户实际的点击率不符,不便于广告投放商的查看和分析。而由上述对图3A和图4A的描述可知,矫正值时根据观测值得到的,因此矫正值的数量级是符合用户实际的点击率的数量级的,便于广告投放商的查看和分析。
请参见图5,其示出了本发明一个实施例中提供的广告点击率矫正装置的结构方框图。该广告点击率矫正装置主要以应用于图1所示的广告投放服务器中进行举例说明,该广告点击率矫正装置可以包括:第一预测模块510、查询模块520和计算模块530。
第一预测模块510,用于利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值;
查询模块520,用于根据存储的日志数据查询各个训练样本的观测值,该观测值用于指示训练样本中用户是否对该训练样本中的广告进行点击;
计算模块530,用于根据各个训练样本的观测值计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,该矫正值用于在向用户进行广告推荐时替换与该矫正值对应的预测值,该矫正值的数量级与实际点击率的数量级相同,该相邻的两个预测值中该在前预测值小于或等于该在后预测值。
综上所述,本发明实施例提供的广告点击率矫正装置,通过对训练样本所对应的预测的点击率进行矫正,获取各个预测值的矫正值,由于矫正值的数量级更贴近于用户的点击率的数量级,且矫正值的递增走向与预测值的递增走向也相同,在利用矫正值替换预测值来为用户推送广告时,更能够增加为用户推送的广告被点击的概率,因此解决现有技术中PCTR单元在进行点击率预测时,由于训练数据巨大,对训练样本中的正负样本进行非等比例抽样,造成预测CTR和真实CTR的差异的问题;达到了减少了预测点击率和真实点击率之间的差异,提高了为用户推送广告的命中率的效果。
请参见图6,其示出了本发明另一个实施例中提供的广告点击率矫正装置的结构方框图。该广告点击率矫正装置主要以应用于图1所示的广告投放服务器中进行举例说明,该广告点击率矫正装置可以包括:第一预测模块610、查询模块620和计算模块630。
该第一预测模块610可以用于利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值;
该查询模块620可以用于根据存储的日志数据查询各个训练样本的观测值,该观测值用于指示训练样本中用户是否对该训练样本中的广告进行点击;
该计算模块630可以用于根据各个训练样本的观测值计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,该矫正值用于在向用户进行广告推荐时替换与该矫正值对应的预测值,该矫正值的数量级与实际点击率的数量级相同,该相邻的两个预测值中该在前预测值小于或等于该在后预测值。
在一种可能的实现方式中,该计算模块630可以包括:第一赋值子模块631、第一排序子模块632、第一检测子模块633和第一确定子模块634。
该第一赋值子模块631可以用于在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将该矫正值赋值为该预测值的观测值。
该第一排序子模块632可以用于按照递增顺序排列各个训练样本的预测值;
该第一检测子模块633可以用于对于相邻的任意两个预测值,检测在前预测值的观测值是否大于在后预测值的观测值;
该第一确定子模块634可以用于在该第一检测子模块632检测到该在前预测值的观测值大于该在后预测值的观测值时,则计算该两个预测值的观测值的平均值,将该在前预测值的观测值以及该在后预测值的观测值均确定为该平均值。
在一种可能的实现方式中,该计算模块630可以包括:统计子模块635、计算子模块636、第二赋值子模块637、第二排序子模块638、第二检测子模块639和第二确定子模块6310。
该统计子模块635可以用于统计每个预测值的数量;
该计算子模块636可以用于对于每个预测值,根据该预测值所对应的各个观测值计算点击率,该点击率是该预测值所对应的所有观测值中用于指示用户点击训练样本的观测值的数量除以该预测值所对应的所有观测值的数量;
该第二赋值子模块637,用于在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将该矫正值赋值为计算得到的该预测值的点击率;
该第二排序子模块638可以用于按照递增顺序排列各个预测值,每相邻的两个预测值中在前预测值小于在后预测值;
该第二检测子模块639可以用于对于相邻的任意两个预测值,检测在前预测值的矫正值是否大于在后预测值的矫正值;
该第二确定子模块6310可以用于在该第二检测子模块检测到该在前预测值的矫正值大于该在后预测值的矫正值时,该广告投放服务器则利用预定公式计算两个预测值的矫正值的加权平均值,将该在前预测值的矫正值以及该在后预测值的矫正值均更新为该加权平均值。
在一种可能的实现方式中,该预定公式为:
fw=(wi*fi+wi+1*fi+1)/(wi+wi+1),
其中,fw为该在前预测值的观测值和该在后预测值的观测值的加权平均值,wi为在该前预测值的数量,fi为该在前预测值的更新前的矫正值,wi+1为该在后预测值的数量,fi+1为该在后预测值的更新前的矫正值。
在一种可能的实现方式中,该广告点击率矫正装置还可以包括:存储模块640。
该存储模块640可以用于将各个预测值以及与该预测值对应的矫正值之间的对应关系存储至该广告投放服务器的点击率预测模块中;
其中,每组对应关系包括预测值和与该预测值对应的矫正值,或者每组对应关系包括矫正值与该矫正值对应的各个预测值组成的范围。
在一种可能的实现方式中,该广告点击率矫正装置还可以包括:第二预测模块650、查找模块660和替换模块670。
该第二预测模块650可以用于在接收到一个用户的广告投放请求时,利用该点击率预测模块中的逻辑回归模型,为该用户预测该用户点击各个初选出的广告的预测值;
该查找模块660可以用于根据该点击率预测模块中存储的该对应关系,查找出与各个该预测值对应的矫正值;
该替换模块670可以用于利用查找到的各个该矫正值替换各个该预测值。
综上所述,本发明实施例提供的广告点击率矫正装置,通过对训练样本所对应的预测的点击率进行矫正,获取各个预测值的矫正值,由于矫正值的数量级更贴近于用户的点击率的数量级,且矫正值的递增走向与预测值的递增走向也相同,在利用矫正值替换预测值来为用户推送广告时,更能够增加为用户推送的广告被点击的概率,因此解决现有技术中PCTR单元在进行点击率预测时,由于训练数据巨大,对训练样本中的正负样本进行非等比例抽样,造成预测CTR和真实CTR的差异的问题;达到了减少了预测点击率和真实点击率之间的差异,提高了为用户推送广告的命中率的效果。
由于可以将相同值的预测值进行合并,因为可以大大减少在计算矫正时的计算量,从而大大缩短了向用户推送广告的时长,提高了广告推送效率和用户体验。
由于预测值经过逻辑回归模型的计算后,预测值的数量级与实际的观测值的数量级可能会差别很大,比如预测值可能为上千的数量级,此时并不便于广告投放商的查看,因此广告的点击率一般都是小于1的数值;而利用上述方法以及实际的观测值来确定预测值的矫正值时,可以保证矫正值和观测值位于相同的数量级,更便于广告投放商的查看和统计。
需要说明的是:上述实施例中提供的广告点击率矫正装置在矫正广告点击率时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将广告投放服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的广告点击率矫正装置与广告点击率矫正方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种广告点击率矫正方法,其特征在于,所述方法包括:
广告投放服务器利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值;
所述广告投放服务器根据存储的日志数据查询各个训练样本的观测值,所述观测值用于指示训练样本中用户是否对所述训练样本中的广告进行点击;
所述广告服务器在对各个矫正值进行初始化时,将所述矫正值赋值为所述预测值的观测值;
所述广告投放服务器按照递增顺序排列各个训练样本的预测值;
所述广告投放服务器根据各个训练样本的递增顺序计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,所述矫正值用于在向用户进行广告推荐时替换与所述矫正值对应的预测值,所述矫正值的数量级与实际点击率的数量级相同,所述相邻的两个预测值中所述在前预测值小于或等于所述在后预测值。
2.根据权利要求1所述的方法,其特征在于,所述广告投放服务器根据各个训练样本的递增顺序计算各个训练样本的预测值的矫正值,包括:
对于相邻的任意两个预测值,所述广告投放服务器检测在前预测值的矫正值是否大于在后预测值的矫正值;
当所述在前预测值的矫正值大于所述在后预测值的矫正值时,所述广告投放服务器则计算所述两个预测值的矫正值的平均值,将所述在前预测值的矫正值以及所述在后预测值的矫正值均更新为所述平均值。
3.根据权利要求1所述的方法,其特征在于,所述广告投放服务器根据各个训练样本的观测值计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,包括:
所述广告投放服务器统计每个预测值的数量;
对于每个预测值,所述广告投放服务器根据所述预测值所对应的各个观测值计算点击率,所述点击率是所述预测值所对应的所有观测值中用于指示用户点击训练样本的观测值的数量除以所述预测值所对应的所有观测值的数量;
所述广告投放服务器在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将所述矫正值赋值为计算得到的所述预测值的点击率;
所述广告投放服务器按照递增顺序排列各个预测值,每相邻的两个预测值中在前预测值小于在后预测值;
对于相邻的任意两个预测值,所述广告投放服务器检测在前预测值的矫正值是否大于在后预测值的矫正值;
当所述在前预测值的观测值大于所述在后预测值的观测值时,所述广告投放服务器则利用预定公式计算所述两个预测值的矫正值的加权平均值,将所述在前预测值的矫正值以及所述在后预测值的矫正值均更新为所述加权平均值。
4.根据权利要求3所述的方法,其特征在于,所述预定公式为:
fw=(wi*fi+wi+1*fi+1)/(wi+wi+1),
其中,fw为所述在前预测值的矫正值和所述在后预测值的矫正值的加权平均值,wi为在所述前预测值的数量,fi为所述在前预测值的更新前的矫正值,wi+1为所述在后预测值的数量,fi+1为所述在后预测值的更新前的矫正值。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述方法还包括:
所述广告投放服务器将各个预测值以及与所述预测值对应的矫正值之间的对应关系存储至所述广告投放服务器的点击率预测单元中;
其中,每组对应关系包括预测值和与所述预测值对应的矫正值,或者每组对应关系包括矫正值与所述矫正值对应的各个预测值组成的范围。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
所述广告投放服务器在接收到一个用户的广告投放请求时,利用所述点击率预测单元中的逻辑回归模型,为所述用户预测所述用户点击各个初选出的广告的预测值;
所述广告投放服务器根据所述点击率预测单元中存储的所述对应关系,查找出与各个所述预测值对应的矫正值;
所述广告投放服务器利用查找到的各个所述矫正值替换各个所述预测值。
7.一种广告点击率矫正装置,其特征在于,应用于广告投放服务器中,所述装置包括:
第一预测模块,用于利用逻辑回归模型对各个训练样本的点击率进行预测,得到各个训练样本的点击率的预测值;
查询模块,用于根据存储的日志数据查询各个训练样本的观测值,所述观测值用于指示训练样本中用户是否对所述训练样本中的广告进行点击;
第一赋值子模块,用于在对各个矫正值进行初始化时,将所述矫正值赋值为所述预测值的观测值;
第一排序子模块,用于按照递增顺序排列各个训练样本的预测值;
计算模块,用于根据各个训练样本的递增顺序计算各个训练样本的预测值的矫正值,使得相邻的两个预测值中在前预测值的矫正值小于或等于在后预测值的矫正值,所述矫正值用于在向用户进行广告推荐时替换与所述矫正值对应的预测值,所述矫正值的数量级与实际点击率的数量级相同,所述相邻的两个预测值中所述在前预测值小于或等于所述在后预测值。
8.根据权利要求7所述的装置,其特征在于,所述计算模块,还包括:
第一检测子模块,用于对于相邻的任意两个预测值,检测在前预测值的矫正值是否大于在后预测值的矫正值;
第一确定子模块,用于在所述第一检测子模块检测到所述在前预测值的矫正值大于所述在后预测值的矫正值时,则计算所述两个预测值的矫正值的平均值,将所述在前预测值的矫正值以及所述在后预测值的矫正值均更新为所述平均值。
9.根据权利要求7所述的装置,其特征在于,所述计算模块,包括:
统计子模块,用于统计每个预测值的数量;
计算子模块,用于对于每个预测值,根据所述预测值所对应的各个观测值计算点击率,所述点击率是所述预测值所对应的所有观测值中用于指示用户点击训练样本的观测值的数量除以所述预测值所对应的所有观测值的数量;
第二赋值子模块,用于在对各个矫正值进行初始化时,对于每个训练样本的预测值的矫正值,将所述矫正值赋值为计算得到的所述预测值的点击率;
第二排序子模块,用于按照递增顺序排列各个预测值,每相邻的两个预测值中在前预测值小于在后预测值;
第二检测子模块,用于对于相邻的任意两个预测值,检测在前预测值的矫正值是否大于在后预测值的矫正值;
第二确定子模块,用于在所述第二检测子模块检测到所述在前预测值的矫正值大于所述在后预测值的矫正值时,所述广告投放服务器则利用预定公式计算两个预测值的矫正值的加权平均值,将所述在前预测值的矫正值以及所述在后预测值的矫正值均更新为所述加权平均值。
10.根据权利要求9所述的装置,其特征在于,所述预定公式为:
fw=(wi*fi+wi+1*fi+1)/(wi+wi+1),
其中,fw为所述在前预测值的观测值和所述在后预测值的观测值的加权平均值,wi为在所述前预测值的数量,fi为所述在前预测值的更新前的矫正值,wi+1为所述在后预测值的数量,fi+1为所述在后预测值的更新前的矫正值。
11.根据权利要求7至10中任一所述的装置,其特征在于,所述装置还包括:
存储模块,用于将各个预测值以及与所述预测值对应的矫正值之间的对应关系存储至所述广告投放服务器的点击率预测模块中;
其中,每组对应关系包括预测值和与所述预测值对应的矫正值,或者每组对应关系包括矫正值与所述矫正值对应的各个预测值组成的范围。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二预测模块,用于在接收到一个用户的广告投放请求时,利用所述点击率预测模块中的逻辑回归模型,为所述用户预测所述用户点击各个初选出的广告的预测值;
查找模块,用于根据所述点击率预测模块中存储的所述对应关系,查找出与各个所述预测值对应的矫正值;
替换模块,用于利用查找到的各个所述矫正值替换各个所述预测值。
CN201510191670.0A 2015-04-21 2015-04-21 广告点击率矫正方法及装置 Active CN106156878B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510191670.0A CN106156878B (zh) 2015-04-21 2015-04-21 广告点击率矫正方法及装置
PCT/CN2016/079188 WO2016169427A1 (zh) 2015-04-21 2016-04-13 广告点击率矫正方法及广告投放服务器
US15/455,356 US20170186030A1 (en) 2015-04-21 2017-03-10 Advertisement click-through rate correction method and advertisement push server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510191670.0A CN106156878B (zh) 2015-04-21 2015-04-21 广告点击率矫正方法及装置

Publications (2)

Publication Number Publication Date
CN106156878A CN106156878A (zh) 2016-11-23
CN106156878B true CN106156878B (zh) 2020-09-15

Family

ID=57142878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510191670.0A Active CN106156878B (zh) 2015-04-21 2015-04-21 广告点击率矫正方法及装置

Country Status (3)

Country Link
US (1) US20170186030A1 (zh)
CN (1) CN106156878B (zh)
WO (1) WO2016169427A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10949889B2 (en) * 2016-01-04 2021-03-16 Exelate Media Ltd. Methods and apparatus for managing models for classification of online users
CN105912935B (zh) * 2016-05-03 2019-06-14 腾讯科技(深圳)有限公司 广告检测方法及广告检测装置
CN108228579A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 网络交互系统
US10936954B2 (en) 2017-03-01 2021-03-02 Facebook, Inc. Data transmission between two systems to improve outcome predictions
CN107273508B (zh) * 2017-06-20 2020-07-10 北京百度网讯科技有限公司 基于人工智能的信息处理方法和装置
CN109214841B (zh) * 2017-06-30 2021-10-22 北京金山安全软件有限公司 广告预测值的获得方法、装置和终端
CN107295107A (zh) * 2017-08-01 2017-10-24 深圳天珑无线科技有限公司 推荐方法、推荐装置以及移动终端
CN107391760B (zh) * 2017-08-25 2018-05-25 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
CN107613022B (zh) * 2017-10-20 2020-10-16 阿里巴巴(中国)有限公司 内容推送方法、装置及计算机设备
CN110020129B (zh) * 2017-10-27 2022-10-25 腾讯科技(深圳)有限公司 点击率校正方法、预估方法、装置、计算设备及存储介质
CN110110210B (zh) * 2018-01-22 2024-09-13 腾讯科技(北京)有限公司 推送展示信息的方法和装置
CN108427708B (zh) * 2018-01-25 2021-06-25 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质和电子装置
CN108304582B (zh) * 2018-03-05 2022-04-12 清华大学 一种网络信息推送方法及系统
CN109165974A (zh) * 2018-08-06 2019-01-08 深圳乐信软件技术有限公司 一种商品推荐模型训练方法、装置、设备及存储介质
CN111130984B (zh) * 2018-10-31 2022-07-05 北京字节跳动网络技术有限公司 用于处理信息的方法和装置
US20200234331A1 (en) * 2019-01-17 2020-07-23 Michael Sadowsky System and process to estimate persuasiveness of public messaging using surveys
CN110069732B (zh) * 2019-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种信息展示的方法、装置及设备
CN110310162B (zh) * 2019-07-09 2021-09-17 西安点告网络科技有限公司 样本生成的方法及装置
CN110490389B (zh) * 2019-08-27 2023-07-21 腾讯科技(深圳)有限公司 点击率预测方法、装置、设备及介质
JP6921922B2 (ja) * 2019-11-20 2021-08-18 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
US11321741B2 (en) * 2020-01-28 2022-05-03 Microsoft Technology Licensing, Llc Using a machine-learned model to personalize content item density
CN111461795A (zh) * 2020-05-02 2020-07-28 上海佳投互联网技术集团有限公司 一种广告点击效果预测方法及系统
CN113822688B (zh) * 2020-06-23 2024-07-19 北京沃东天骏信息技术有限公司 广告转化率预估方法及装置、存储介质、电子设备
CN111598677A (zh) * 2020-07-24 2020-08-28 北京淇瑀信息科技有限公司 一种资源配额确定方法、装置和电子设备
US20220156635A1 (en) * 2020-11-19 2022-05-19 Sap Se Machine Learning Prediction For Recruiting Posting
CN112446736A (zh) * 2020-12-02 2021-03-05 平安科技(深圳)有限公司 一种点击通过率ctr预测方法及装置
CN112907295A (zh) * 2021-03-19 2021-06-04 恩亿科(北京)数据科技有限公司 一种基于计算广告背景下的相似人群拓展方法以及装置
US20230057068A1 (en) * 2021-08-20 2023-02-23 Oracle International Corporation Request throttling using pi-es controller
CN114612167B (zh) * 2022-05-12 2022-08-19 杭州桃红网络有限公司 一种建立广告自动关停模型的方法及广告自动关停模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN103246985A (zh) * 2013-04-26 2013-08-14 北京亿赞普网络技术有限公司 一种广告点击率预测方法及装置
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9547865B2 (en) * 2009-03-30 2017-01-17 Ebay Inc. System and method for providing advertising server optimization for online computer users
US8700465B1 (en) * 2011-06-15 2014-04-15 Google Inc. Determining online advertisement statistics
CN103150663A (zh) * 2013-02-18 2013-06-12 亿赞普(北京)科技有限公司 一种网络投放数据投放的方法和装置
CN103310003A (zh) * 2013-06-28 2013-09-18 华东师范大学 一种基于点击日志的新广告点击率预测方法及系统
CN104268644A (zh) * 2014-09-23 2015-01-07 新浪网技术(中国)有限公司 广告位上的广告的点击次数预估方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346899A (zh) * 2011-10-08 2012-02-08 亿赞普(北京)科技有限公司 一种基于用户行为的广告点击率预测方法和装置
CN103246985A (zh) * 2013-04-26 2013-08-14 北京亿赞普网络技术有限公司 一种广告点击率预测方法及装置
CN103996088A (zh) * 2014-06-10 2014-08-20 苏州工业职业技术学院 基于多维特征组合逻辑回归的广告点击率预测方法

Also Published As

Publication number Publication date
CN106156878A (zh) 2016-11-23
WO2016169427A1 (zh) 2016-10-27
US20170186030A1 (en) 2017-06-29

Similar Documents

Publication Publication Date Title
CN106156878B (zh) 广告点击率矫正方法及装置
WO2015120798A1 (en) Method for processing network media information and related system
CN103593353B (zh) 信息搜索方法、展示信息排序权重值确定方法及其装置
CN102880688B (zh) 一种用于对网页进行评估的方法、装置和设备
CN110929052A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
CN105631711A (zh) 一种广告投放方法及装置
CN104881803B (zh) 一种分析广告点击链接的方法及装置
US20140188593A1 (en) Selecting an advertisement for a traffic source
JP2018526710A (ja) 情報推薦方法および情報推薦装置
CN109272360B (zh) 一种广告智能推荐方法、系统及装置
KR20160096122A (ko) 복수의 이벤트들에 기여도 크레딧을 할당하기 위한 데이터-중심 기여도 모델을 생성하기 위한 방법들 및 시스템들
US9990641B2 (en) Finding predictive cross-category search queries for behavioral targeting
CN105590240A (zh) 一种品牌广告效果优化的离散计算方法
US8521579B2 (en) Predicting marketing campaigns having more than one step
CN101673385A (zh) 消费预估方法和装置
CN107862551B (zh) 网络应用推广效果的预测方法、装置和终端设备
CN106296247B (zh) 网络信息资源在线排序方法和装置
CN115408586B (zh) 一种智能渠道运营数据分析方法、系统、设备及存储介质
CN105654198A (zh) 具有最优阈值筛选的品牌广告效果优化的方法
CN112884529B (zh) 一种广告竞价方法、装置、设备及介质
CN105608604A (zh) 一种品牌广告效果优化的连续计算方法
US20190050890A1 (en) Video dotting placement analysis system, analysis method and storage medium
Bhamidipati et al. A large scale prediction engine for app install clicks and conversions
CN111460301A (zh) 对象推送方法、装置、电子设备及存储介质
CN105681089B (zh) 网络用户行为聚类方法、装置及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant