CN111507765A - 广告点击率预测方法、装置、电子设备和可读存储介质 - Google Patents
广告点击率预测方法、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN111507765A CN111507765A CN202010301341.8A CN202010301341A CN111507765A CN 111507765 A CN111507765 A CN 111507765A CN 202010301341 A CN202010301341 A CN 202010301341A CN 111507765 A CN111507765 A CN 111507765A
- Authority
- CN
- China
- Prior art keywords
- rate prediction
- click rate
- model
- click
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012795 verification Methods 0.000 claims description 20
- 238000007477 logistic regression Methods 0.000 claims description 19
- 238000002790 cross-validation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 239000000306 component Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 239000008358 core component Substances 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种广告点击率预测方法、装置、电子设备和可读存储介质,涉及互联网应用技术领域。该方法首先获取待预测广告的待预测数据,接着将待预测数据输入预先建立的点击率预测模型,得到点击率预测结果,其中,点击率预测模型是通过获取历史广告数据集,并利用历史广告数据集对预先构建的初始点击率预测模型进行训练得到的,初始点击率预测模型包括自上而下的袋装结构和堆叠结构。如此,通过融合装袋方法和堆叠方法对待预测数据进行点击率预测,改善了预测模型的拟合能力和表达能力,从而提高了预测广告点击率的准确度。
Description
技术领域
本申请涉及互联网应用技术领域,具体而言,涉及一种广告点击率预测方法、装置、电子设备和可读存储介质。
背景技术
随着互联网的飞速发展,在线广告作为互联网公司的一种重要盈利模式,其地位是不言而喻的。在各种商业化产品中,以计算广告为导向的广告变现无疑是最为重要的,而点击率预估又是计算广告中的核心组成部分。
目前常用的点击率预测方法(Click-Through-Rate,CTR)包括基于传统的单个预测模型和多模型混合的方法进行预测。其中,多模型混合预测通常包括提升方法(Boosting)、装袋方法(Bagging)和堆叠方法(Stacking)。
对于传统的单个预测模型的方法而言,其学习能力以及模型复杂度都有限。而对于模型混合的方法,也均具有模型拟合能力及表达能力差,预测准确度不够高的问题。
发明内容
有鉴于此,本申请提供了一种广告点击率预测方法、装置、电子设备和可读存储介质,以解决上述问题。
本申请的实施例可以这样实现:
第一方面,本申请实施例提供一种广告点击率预测方法,所述方法包括:
获取待预测广告的待预测数据;
将所述待预测数据输入预先建立的点击率预测模型,得到点击率预测结果,其中,所述点击率预测模型是通过获取历史广告数据集,并利用所述历史广告数据集对预先构建的初始点击率预测模型进行训练得到的,所述初始点击率预测模型包括自上而下的袋装结构和堆叠结构。
在可选的实施方式中,所述初始点击率预测模型是按照以下方式进行构建的:
基于袋装法构建由多个基学习器并列连接的袋装结构;
基于堆叠法构建包括融合模型的堆叠结构,得到所述点击率预测模型。
在可选的实施方式中,所述基学习器为因子分解机模型、梯度提升树、逻辑回归模型和感知分解机模型中的任意一个。
在可选的实施方式中,所述获取历史广告数据集,并利用所述历史广告数据集对预先构建的初始点击率预测模型进行训练的步骤,包括:
基于交叉验证法将所述历史广告数据集划分为多组训练集和测试集;
依次使用每组训练集对所述袋装结构中的每个基学习器进行训练,直至训练次数达到预设值;
使用每组训练集对应的测试集对所述点击率预测模型进行性能验证,得到每个基学习器在所有测试集中的性能分值;
基于所述堆叠结构,按照每个基学习器的所有性能分值,计算每个基学习器在所述点击率预测模型中的权重,得到点击率预测模型。
在可选的实施方式中,所述使用每组训练集对应的测试集对所述点击率预测模型进行性能验证的步骤包括:
基于预设性能验证模型,使用每组训练集对应的测试集对所述点击率预测模型进行性能验证,其中,所述性能验证模型为AUC值、gROC值及LogLoss值中的任意一个。
在可选的实施方式中,所述按照每个基学习器的所有性能分值,计算每个基学习器在所述点击率预测模型中的权重的步骤包括:
计算每个基学习器的所有性能分值的平均值,将该平均值作为各基学习器的初始权重;
对所有基学习器的初始权重进行归一化,得到每个基学习器在所述点击率预测模型中的权重。
在可选的实施方式中,所述按照每个基学习器的所有性能分值,计算每个基学习器在所述点击率预测模型中的权重的步骤包括:
计算每个基学习器的所有性能分值的中位数,将该中位数作为各基学习器的初始权重;
对所有基学习器的初始权重进行归一化,得到每个基学习器在所述点击率预测模型中的权重。
第二方面,本申请实施例提供一种广告点击率预测装置,所述装置包括:
获取模块,用于获取待预测广告的待预测数据;
输入输出模块,用于将所述待预测数据输入预先建立的点击率预测模型,得到点击率预测结果,其中,所述点击率预测模型是通过获取历史广告数据集,并利用所述历史广告数据集对预先构建的初始点击率预测模型进行训练得到的,所述初始点击率预测模型包括自上而下的袋装结构和堆叠结构。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括处理器、存储器及总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器及所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行前述实施方式中任意一项所述的广告点击率预测方法的步骤。
第四方面,本申请实施例提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现前述实施方式中任一项所述的广告点击率预测方法。
本申请提供了一种广告点击率预测方法、装置、电子设备和可读存储介质,该方法通过融合装袋方法和堆叠方法对待预测广告的待预测数据进行点击率预测,改善预测模型的拟合能力和表达能力,从而提高了广告点击率预测的准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的现有技术示意图之一。
图2为本申请实施例提供的现有技术示意图之二。
图3为本申请实施例提供的电子设备的结构框图。
图4为本申请实施例提供的广告点击率预测方法的流程图。
图5为本申请实施例提供的初始点击率预测模型的层级结构示意图。
图6为本申请实施例提供的广告点击率预测装置的功能模块框图。
图标:100-电子设备;110-存储器;120-处理器;130-广告点击率预测装置;131-获取模块;132-输入输出模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以用各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
如背景技术所介绍,随着互联网的飞速发展,在线广告作为互联网公司的一种重要盈利模式,其地位是不言而喻的。在各种商业化产品中,以计算广告为导向的广告变现无疑是最为重要的,而点击率预估又是计算广告中的核心组成部分。
目前常用的点击率预测方法包括基于传统的单个预测模型和多模型混合的方法进行预测。其中,多模型混合预测通常包括提升方法、装袋方法和堆叠方法。
图1展示了一个通用的提升方法的模型层级结构,从图中可以看出,提升方法通过多次迭代来组建模型,其每一次的迭代都是为减小已有模型的残差。通过给已有模型预测错误的样本更高的权重,使得先前的学习器分类错误的样本在后续受到更多的关注方式来减少模型的误差。
图2展示了一个通用的装袋方法的模型层级结构,从图中可以看出,装袋方法与提升方法有明显区别,它的基学习器(单个分类器)之间相互独立,可并行计算,执行效率非常高。每个基学习器的构造都是基于原始训练集进行随机采样后训练得到的结果。装袋方法最终的结果是通过每个基学习器共同投票或加权平均得到的,权重通常采用各基学习器在验证集上的得分。
堆叠方法则采用融合的方式集成各类基学习器。例如,假设各类基学习器对一个样本预测的结果分别是{C1,C2,…,Ck},那么基于堆叠方法的输出结果可能是上述结果的算术平均值。
对于传统的单个预测模型的方法而言,其学习能力以及模型复杂度都有限。而对于模型混合的方法,也均具有模型拟合能力及表达能力差,预测准确度不够高的问题。
有鉴于此,本申请提供了一种广告点击率预测方法、装置、电子设备和可读存储介质,该方法通过融合装袋方法和堆叠方法对待预测广告的待预测数据进行点击率预测,改善预测模型的拟合能力和表达能力,从而提高广告点击率预测的准确度。下面对上述方案进行详细阐述。
请参阅图3,图3为本申请实施例提供的一种电子设备100的结构框图。设备可以包括处理器120、存储器110、广告点击率预测装置130及总线,存储器110存储有处理器120可执行的机器可读指令,当电子设备100运行时,处理器120及存储器110之间通过总线通信,处理器120执行机器可读指令,并执行广告点击率预测方法的步骤。
存储器110、处理器120以及其他各元件相互之间直接或间接地电性连接,以实现信号的传输或交互。
例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。广告点击率预测装置130包括至少一个可以软件或固件(firmware)的形式存储于存储器110中的软件功能模块。处理器120用于执行存储器110中存储的可执行模块,例如广告点击率预测装置130所包括的软件功能模块或计算机程序。
其中,存储器110可以是,但不限于,随机读取存储器(Random ACCess memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器120可以是一种集成电路芯片,具有信号处理能力。上述处理器120可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等。
还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例中,存储器110用于存储程序,处理器120用于在接收到执行指令后,执行程序。本申请实施例任一实施方式所揭示的流程定义的方法可以应用于处理器120中,或者由处理器120实现。
在本申请实施例中,电子设备100可以是但不限于智能手机、个人电脑、平板电脑等具有处理功能的设备。
可以理解,图3所示的结构仅为示意。电子设备100还可以具有比图3所示更多或者更少的组件,或者具有与图3所示不同的配置。图3所示的各组件可以采用硬件、软件或其组合实现。
作为一种可能的实施方式,本申请实施例提供了一种广告点击率预测方法,图4为本申请实施例提供的广告点击率预测方法的流程图。下面结合图4所示的具体流程进行详细描述。
步骤S1,获取待预测广告的待预测数据。
步骤S2,将待预测数据输入预先建立的点击率预测模型,得到点击率预测结果,其中,点击率预测模型是通过获取历史广告数据集,并利用历史广告数据集对预先构建的初始点击率预测模型进行训练得到的,初始点击率预测模型包括自上而下的袋装结构和堆叠结构。
其中,请结合参阅图5,图5为初始点击率预测模型的层级结构示意图。初始点击率预测模型可按照以下方式进行构建:
首先,基于袋装法构建由多个基学习器并列连接的袋装结构。
接着,基于堆叠法构建包括融合模型的堆叠结构,得到点击率预测模型。
图中的每个权重由历史广告数据集训练获得,且分别与基学习器相对应。例如,权重1为基学习器1的权重,权重2为基学习器2的权重。同时,可以理解的是,针对初始点击率预测模型训练得到的点击率预测模型也具有和初始点击率预测模型同样的层级结构。
上述基学习器为因子分解机模型、梯度提升树、逻辑回归模型和感知分解机模型中的任意一个。
待预测数据可以包括用户特征数据,例如,用户搜索的关键词、网页流量记录、广告点击记录、用户的年龄、用户的性别、用户的职业等。还可以包括网页特征,例如,网页的分类、网页关键词等。还可以包括广告特征,例如,广告类别、广告关键词、广告引导页等。
待预测数据还可以是上述特征数据的任意结合,例如,将用户的年龄、用户的性别和广告类别三种类型的特征进行交叉组合。
进一步地,训练好的袋装结构用于基于多个包括权重的基学习器进行初步点击率预测,得到初步点击率预测值。堆叠结构用于基于融合模型,按照每个基学习器对应的权重和初步点击率预测值,计算点击率预测结果。
例如,作为一种可能的实施场景,袋装结构包括3个基学习器,基学习器A对应的权重为0.3,基学习器B对应的权重为0.5,基学习器C对应的权重为0.2。若基学习器A对待预测广告进行预测得到的初步点击率预测值为90%,基学习器B对待预测广告进行预测得到的初步点击率预测值为85%,基学习器C对待预测广告进行预测得到的初步点击率预测值为80%,那么针对该待预测广告,计算得到的点击率预测结果为:
0.3×90%+0.5×85%+0.2×80%=85.5%
即,该待预测广告的点击率预测结果为85.5%。
本申请实施例通过融合装袋方法和堆叠方法对广告数据进行点击率预测,采用多个不同类别的基模型进行融合,这样设计的优势在于第一层基模型间彼此相互独立,可以大规模并行计算,执行效率比较高,分布式的版本也降低了移植到工程上的难度,可以很好的解决工程数据规模问题,改善了预测模型的拟合能力和表达能力,从而提高广告点击率预测的准确度。
应当理解,在其它实施例中,本实施例的广告点击率预测方法中的部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
进一步地,作为一种可能的实施方式,本申请实施例以基学习器之间结构差异足够大,覆盖面足够广,训练复杂度尽可能低为原则,综合考虑了在线广告数据集下各类模型特点,选用因子分解机模型(Factorization Machine,FM)、梯度提升树(Gradient BoostDecision Tree,GBDT)及逻辑回归模型(Logist Regression,LR)这三类为基学习器,构建袋装结构。
针对因子分解机模型,该模型是一种基于矩阵分解的机器学习算法,其优势在于该模型对于稀疏数据具有非常不错的学习能力,可有效解决稀疏数据下的特征交叉组合问题,同时该模型可以在线性时间内对高维稀疏矩阵进行较高质量的预测,非常适合在线广告点击率预估这类高维稀疏数据。
因子分解机模型在传统线性模型基础上,通过引入交叉项xixj来表达特征交叉之间的关系。其数学模型如公式(1):
其中模型参数w0∈R,wi∈Rn,wij∈Rnk,R为实数。w0是偏执项,xi是第i个特征的值,wi是权重向量的第i个维度,wij为特征xi与特征xi的交叉项权重,n代表训练数据中的样本量,由此可见,因子分解机模型在传统线性模型基础上,增加了特征之间的交叉信息。交叉后的特征参数众多,对于分类特征,交叉前还会进行热编码,会使较多交叉特征权重为0。对于这类高维稀疏数据,因子分解机模型通过矩阵分解方式,可以有效学习到各类广告数据的特征的权重。
对于因子分解机模型,模型参数可以通过马尔可夫链蒙特卡罗推理(MCMC)、梯度下降法(GD)、交替最小二乘法(ALS)求解。梯度下降法可分为随机梯度下降法和批量梯度下降法。
在线广告数据集,通常都是高维稀疏数据,尤其进行特征交叉或特征组合后,维度常常上千万。选用因子分解基模型的主要目标是解决数据稀疏情况下特征组合问题,其可以在非常稀疏的数据中进行合理的参数估计,并且时间复杂度是线性的,执行效率比较高。
针对梯度提升树,该梯度提升树是一种基于树的集成模型,由多棵决策树组成,其模型结果是通过对所有基学习器的结果进行加权统计,通过投票法或平均法得到。
梯度提升树的模型数学表达可抽象为公式(3):
其中,x代表输入样本,ft代表第t棵回归树(包含权重),w代表分类回归树的参数且w∈R,at代表第t棵回归树的权重,ht代表第t棵回归树(不包含权重),T代表回归树的颗数。梯度提升树是通过迭代多棵决策回归树,对所有结果进行加权平均或通过投票法得到。在所有决策回归树中,每一棵树的建立都是基于之前迭代的所有决策回归树与真实值的残差,通过对残差的拟合来不断提升模型整体的表现。
而选用梯度提升树,是由于其天然具有非线性特征,其每一棵树的建立都可以有效减少之前模型的残差。通过融合梯度提升树模型,可以为混合模型带来非线性的拟合能力,从而增强混合模型的表达能力。
针对逻辑回归模型,逻辑回归模型通过Logit变换把函数值域映射到0-1区间,映射后的值就是该广告被点击的概率值。逻辑回归模型是一种线性模型,比较容易并行化,训练成本很低。但线性模型相比非线性模型学习能力有限,需要人工进行大量特征工程或引入交叉特征,才能间接提升模型的非线性拟合能力。其数学表达式可以抽象为公式(4)与公式(5):
其中,x为模型特征的输入,且x∈Rn,输出的结果用y表示,且y∈{0,1},
∈Rn,x∈R。偏执项用b表示,w表示每个特征权重向量。模型参数w的求解可以看作一个最优化问题,可以通过对损失函数多次迭代求解最小值方式进行求解,为了加快损失函数收敛速度,可以使用如拟牛顿法(Quasi-Newton Method),梯度下降法,牛顿法(NewtonMethod)等迭代方法求解。
选用逻辑回归模型,是由于其足够简单并且执行效率非常高,虽然逻辑回归模型整体表达能力较弱,但却能提高融合后结果的偏差,从而起到平衡融合模型方差与偏差的作用。
进一步地,本申请实施例中,可通过以下方式对预先构建的初始点击率预测模型进行训练:
首先,基于交叉验证法将历史广告数据集划分为多组训练集和测试集。
接着,依次使用每组训练集对袋装结构中的每个基学习器进行训练,直至训练次数达到预设值。
然后,使用每组训练集对应的测试集对点击率预测模型进行性能验证,得到每个基学习器在所有测试集中的性能分值。
最后,基于堆叠结构,按照每个基学习器的所有性能分值,计算每个基学习器在点击率预测模型中的权重,得到点击率预测模型。
作为一种可能的实施方式,交叉验证法可以是五折交叉验证法。首先将历史广告数据集等比例划分为5份,每一次训练均以其中的1份作为测试集,其他4份作为训练集,一个完整的训练包括5次训练。
如表1所示,表1表示一个完整的训练中所包括的每一次训练时所用到的多组训练集和测试集:
依次使用每组训练集对每个基学习器进行训练,直至训练次数达到预设值。使用每组训练集对应的测试集对点击率预测模型进行性能验证,得到每个基学习器在所有测试集中的性能分值。
例如,使用第一组训练集对因子分解机模型进行训练,训练结束后则采用第一组测试集对因子分解机模型进行性能验证,得到该因子分解机模型的性能分值为a。接着,使用第二组训练集对因子分解机模型进行训练,训练结束后则采用第二组测试集对因子分解机模型进行性能验证,得到该因子分解机模型的性能分值为b。接着,使用第三组训练集对因子分解机模型进行训练,训练结束后则采用第三组测试集对因子分解机模型进行性能验证,得到该因子分解机模型的性能分值为c。如此依次训练,直至5组训练集和测试集全部训练完成,最终得到因子分解机模型在每一组训练集和测试集中的性能分值。
可以理解的是,对于其它每个基学习器,同样采用上述方法进行训练和性能验证,得到每个基学习器在所有测试集中的性能分值。
作为另一种可能的实施方式,交叉验证法还可以是十折交叉验证法,其原理与五折交叉验证法相似,在此不做赘述。
进一步地,可使用以下方式对点击率预测模型进行性能验证:
基于预设性能验证模型,使用每组训练集对应的测试集对点击率预测模型进行性能验证,其中,性能验证模型为AUC值、gROC值及LogLoss值中的任意一个。具体验证过程可以参阅现有技术,在此不做赘述。
进一步地,作为一种可选的实施方式,可通过以下方式计算每个基学习器在点击率预测模型中的权重:
首先,计算每个基学习器的所有性能分值的平均值,将该平均值作为各基学习器的初始权重。
接着,对所有基学习器的初始权重进行归一化,得到每个基学习器在点击率预测模型中的权重。
其中,可用以下公式对所有基学习器的初始权重进行归一化:
其中,xs为对xi归一化后的结果,xi为第i个初始权重,j为初始权重的个数。
可以理解的,在本申请实施例中,可采用多种方式对每个初始权重进行归一化处理,不仅限于上述方式。
例如,作为一种可能的实施场景,上述基学习器可以包括因子分解机模型、梯度提升树模型和逻辑回归模型。若因子分解机模型得到的所有性能分值分别为5、5、8、6、7。梯度提升树模型得到的所有性能分值分别为7、5、7、6、2。逻辑回归模型得到的所有性能分值分别为6、4、5、9、5。
对所有基学习器,即因子分解机模型、梯度提升树模型和逻辑回归模型的初始权重进行归一化,有:
作为另一种可选的实施方式,还可通过以下方式计算每个基学习器在点击率预测模型中的权重:
首先,计算每个基学习器的所有性能分值的中位数,将该中位数作为各基学习器的初始权重。
接着,对所有基学习器的初始权重进行归一化,得到每个基学习器在点击率预测模型中的权重。
例如,作为一种可能的实施场景,上述基学习器可以包括因子分解机模型、梯度提升树模型和逻辑回归模型。若因子分解机模型得到的所有性能分值分别为5、5、8、6、7。梯度提升树模型得到的所有性能分值分别为7、5、7、6、2。逻辑回归模型得到的所有性能分值分别为6、4、5、9、5。
由于因子分解机模型得到的所有性能分值中,中位数为6,因此因子分解机模型的初始权重为。
由于梯度提升树模型得到的所有性能分值中,中位数为6,因此梯度提升树模型的初始权重为6。
同样的,由于逻辑回归模型得到的所有性能分值中,中位数为5,因此逻辑回归模型的初始权重为5。
对所有基学习器,即因子分解机模型、梯度提升树模型和逻辑回归模型的初始权重进行归一化,有:
如此,完成了对点击率预测模型的训练,获得了训练好的点击率预测模型。
基于同一发明构思,请结合参阅图6,本申请实施例中还提供了与上述广告点击率预测方法对应的广告点击率预测装置130,装置包括:
获取模块131,用于获取待预测广告的待预测数据。
输入输出模块132,用于将待预测数据输入预先建立的点击率预测模型,得到点击率预测结果,其中,点击率预测模型是通过获取历史广告数据集,并利用历史广告数据集对预先构建的初始点击率预测模型进行训练得到的,初始点击率预测模型包括自上而下的袋装结构和堆叠结构。
由于本申请实施例中的装置解决问题的原理与本申请实施例上述广告点击率预测方法相似,因此装置的实施原理可以参见方法的实施原理,重复之处不再赘述。
本实施例也提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序被执行时实现上述的广告点击率预测方法。
综上,本申请实施例提供了一种广告点击率预测方法、装置、电子设备和可读存储介质,该方法首先获取待预测广告的待预测数据,接着将待预测数据输入预先建立的点击率预测模型,得到点击率预测结果,其中,点击率预测模型是通过获取历史广告数据集,并利用历史广告数据集对预先构建的初始点击率预测模型进行训练得到的,初始点击率预测模型包括自上而下的袋装结构和堆叠结构。如此,通过融合装袋方法和堆叠方法对广告数据进行点击率预测,改善了预测模型的拟合能力和表达能力,从而提高了预测广告点击率的准确度。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种广告点击率预测方法,其特征在于,所述方法包括:
获取待预测广告的待预测数据;
将所述待预测数据输入预先建立的点击率预测模型,得到点击率预测结果,其中,所述点击率预测模型是通过获取历史广告数据集,并利用所述历史广告数据集对预先构建的初始点击率预测模型进行训练得到的,所述初始点击率预测模型包括自上而下的袋装结构和堆叠结构。
2.根据权利要求1所述的广告点击率预测方法,其特征在于,所述初始点击率预测模型是按照以下方式进行构建的:
基于袋装法构建由多个基学习器并列连接的袋装结构;
基于堆叠法构建包括融合模型的堆叠结构,得到所述点击率预测模型。
3.根据权利要求2所述的广告点击率预测方法,其特征在于,所述基学习器为因子分解机模型、梯度提升树、逻辑回归模型和感知分解机模型中的任意一个。
4.根据权利要求1所述的广告点击率预测方法,其特征在于,所述获取历史广告数据集,并利用所述历史广告数据集对预先构建的初始点击率预测模型进行训练的步骤,包括:
基于交叉验证法将所述历史广告数据集划分为多组训练集和测试集;
依次使用每组训练集对所述袋装结构中的每个基学习器进行训练,直至训练次数达到预设值;
使用每组训练集对应的测试集对所述点击率预测模型进行性能验证,得到每个基学习器在所有测试集中的性能分值;
基于所述堆叠结构,按照每个基学习器的所有性能分值,计算每个基学习器在所述点击率预测模型中的权重,得到点击率预测模型。
5.根据权利要求4所述的广告点击率预测方法,其特征在于,所述使用每组训练集对应的测试集对所述点击率预测模型进行性能验证的步骤包括:
基于预设性能验证模型,使用每组训练集对应的测试集对所述点击率预测模型进行性能验证,其中,所述性能验证模型为AUC值、gROC值及LogLoss值中的任意一个。
6.根据权利要求4所述的广告点击率预测方法,其特征在于,所述按照每个基学习器的所有性能分值,计算每个基学习器在所述点击率预测模型中的权重的步骤包括:
计算每个基学习器的所有性能分值的平均值,将该平均值作为各基学习器的初始权重;
对所有基学习器的初始权重进行归一化,得到每个基学习器在所述点击率预测模型中的权重。
7.根据权利要求4所述的广告点击率预测方法,其特征在于,所述按照每个基学习器的所有性能分值,计算每个基学习器在所述点击率预测模型中的权重的步骤包括:
计算每个基学习器的所有性能分值的中位数,将该中位数作为各基学习器的初始权重;
对所有基学习器的初始权重进行归一化,得到每个基学习器在所述点击率预测模型中的权重。
8.一种广告点击率预测装置,其特征在于,所述装置包括:
获取模块,用于获取待预测广告的待预测数据;
输入输出模块,用于将所述待预测数据输入预先建立的点击率预测模型,得到点击率预测结果,其中,所述点击率预测模型是通过获取历史广告数据集,并利用所述历史广告数据集对预先构建的初始点击率预测模型进行训练得到的,所述初始点击率预测模型包括自上而下的袋装结构和堆叠结构。
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器及总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器及所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行权利要求1-7中任意一项所述的广告点击率预测方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-7中任一项所述的广告点击率预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010301341.8A CN111507765A (zh) | 2020-04-16 | 2020-04-16 | 广告点击率预测方法、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010301341.8A CN111507765A (zh) | 2020-04-16 | 2020-04-16 | 广告点击率预测方法、装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111507765A true CN111507765A (zh) | 2020-08-07 |
Family
ID=71876169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010301341.8A Pending CN111507765A (zh) | 2020-04-16 | 2020-04-16 | 广告点击率预测方法、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507765A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112162918A (zh) * | 2020-09-07 | 2021-01-01 | 北京达佳互联信息技术有限公司 | 应用程序的测试方法、装置及电子设备 |
CN112581185A (zh) * | 2020-12-28 | 2021-03-30 | 北京明略软件系统有限公司 | 广告用户性别年龄预估方法、系统、计算机和存储介质 |
CN113487351A (zh) * | 2021-07-05 | 2021-10-08 | 哈尔滨工业大学(深圳) | 隐私保护广告点击率预测方法、装置、服务器及存储介质 |
CN114707097A (zh) * | 2022-05-31 | 2022-07-05 | 每日互动股份有限公司 | 一种获取目标消息流量的数据处理系统 |
CN112581185B (zh) * | 2020-12-28 | 2024-05-31 | 北京明略软件系统有限公司 | 广告用户性别年龄预估方法、系统、计算机和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180105298A1 (en) * | 2016-10-18 | 2018-04-19 | Maschinenfabrik Mollers Gmbh | Method for producing a pallet-less packaging unit and a packaging unit produced according to the method |
CN108877905A (zh) * | 2018-06-12 | 2018-11-23 | 中南大学 | 一种基于Xgboost框架的医院门诊就诊量预测方法 |
CN108921604A (zh) * | 2018-06-22 | 2018-11-30 | 华南理工大学 | 一种基于代价敏感分类器集成的广告点击率预测方法 |
CN109829543A (zh) * | 2019-01-31 | 2019-05-31 | 中国科学院空间应用工程与技术中心 | 一种基于集成学习的数据流在线异常检测方法 |
CN110109902A (zh) * | 2019-03-18 | 2019-08-09 | 广东工业大学 | 一种基于集成学习方法的电商平台推荐系统 |
-
2020
- 2020-04-16 CN CN202010301341.8A patent/CN111507765A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180105298A1 (en) * | 2016-10-18 | 2018-04-19 | Maschinenfabrik Mollers Gmbh | Method for producing a pallet-less packaging unit and a packaging unit produced according to the method |
CN108877905A (zh) * | 2018-06-12 | 2018-11-23 | 中南大学 | 一种基于Xgboost框架的医院门诊就诊量预测方法 |
CN108921604A (zh) * | 2018-06-22 | 2018-11-30 | 华南理工大学 | 一种基于代价敏感分类器集成的广告点击率预测方法 |
CN109829543A (zh) * | 2019-01-31 | 2019-05-31 | 中国科学院空间应用工程与技术中心 | 一种基于集成学习的数据流在线异常检测方法 |
CN110109902A (zh) * | 2019-03-18 | 2019-08-09 | 广东工业大学 | 一种基于集成学习方法的电商平台推荐系统 |
Non-Patent Citations (1)
Title |
---|
姚舜才等, 西安电子科学技术大学出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112162918A (zh) * | 2020-09-07 | 2021-01-01 | 北京达佳互联信息技术有限公司 | 应用程序的测试方法、装置及电子设备 |
CN112581185A (zh) * | 2020-12-28 | 2021-03-30 | 北京明略软件系统有限公司 | 广告用户性别年龄预估方法、系统、计算机和存储介质 |
CN112581185B (zh) * | 2020-12-28 | 2024-05-31 | 北京明略软件系统有限公司 | 广告用户性别年龄预估方法、系统、计算机和存储介质 |
CN113487351A (zh) * | 2021-07-05 | 2021-10-08 | 哈尔滨工业大学(深圳) | 隐私保护广告点击率预测方法、装置、服务器及存储介质 |
CN114707097A (zh) * | 2022-05-31 | 2022-07-05 | 每日互动股份有限公司 | 一种获取目标消息流量的数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021081962A1 (zh) | 推荐模型的训练方法、推荐方法、装置及计算机可读介质 | |
CN106251174A (zh) | 信息推荐方法及装置 | |
CN111507765A (zh) | 广告点击率预测方法、装置、电子设备和可读存储介质 | |
CN109446430A (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
CN110851713A (zh) | 信息处理方法、推荐方法及相关设备 | |
JP6884116B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
Sun et al. | Linguistic value soft set-based approach to multiple criteria group decision-making | |
WO2023011382A1 (zh) | 推荐方法、推荐模型训练方法及相关产品 | |
CN111353033B (zh) | 一种训练文本相似度模型的方法和系统 | |
CN111695024A (zh) | 对象评估值的预测方法及系统、推荐方法及系统 | |
Krueger et al. | Evaluating the predictive abilities of mixed logit models with unobserved inter-and intra-individual heterogeneity | |
CN111178399A (zh) | 数据处理方法及装置、电子设备和计算机可读存储介质 | |
CN106294882A (zh) | 数据挖掘方法以及装置 | |
CN111461757B (zh) | 信息处理方法及装置、计算机存储介质、电子设备 | |
CN112785005A (zh) | 多目标任务的辅助决策方法、装置、计算机设备及介质 | |
CN113807728A (zh) | 基于神经网络的绩效考核方法、装置、设备及存储介质 | |
Camilli et al. | An aggregate IRT procedure for exploratory factor analysis | |
Geweke et al. | Econometrics: a bird's eye view | |
CN114692889A (zh) | 用于机器学习算法的元特征训练模型 | |
Suvon et al. | Masters and Doctor of Philosophy admission prediction of Bangladeshi students into different classes of universities | |
CN116843483A (zh) | 一种车险理赔方法、装置、计算机设备及存储介质 | |
Landim et al. | Dynamic hierarchical models: an extension to matrix-variate observations | |
CN104809107A (zh) | 基于上下文转换向量模型的推荐方法和系统 | |
CN112328918B (zh) | 商品排序方法、计算设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200807 |
|
RJ01 | Rejection of invention patent application after publication |