CN113222650A

CN113222650A - 广告投放模型的训练特征选取方法、系统、设备及介质

Info

Publication number: CN113222650A
Application number: CN202110472308.6A
Authority: CN
Inventors: 张�浩
Original assignee: Xi'an Notice Network Technology Co ltd
Current assignee: Xi'an Notice Network Technology Co ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-06
Anticipated expiration: 2041-04-29
Also published as: CN113222650B

Abstract

本发明属于广告投放领域，公开了一种广告投放模型的训练特征选取方法、系统、设备及介质，包括以下步骤：获取若干广告投放历史数据样本，将若干广告投放历史数据样本分为训练集和测试集；获取广告投放模型的若干初始训练特征；遍历各初始训练特征，获取训练集内当前初始训练特征的各特征值的历史CTR，得到各初始训练特征的各特征值的历史CTR；根据各初始训练特征的各特征值的历史CTR，获取各初始训练特征在测试集上的AUC值；将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。每个训练特征的重要度度量方案跟模型效果评估一致，均是使用AUC值，提升广告投放模型的准确性；只需要进行数据样本及各特征值的统计，不需要进行模型训练，选取成本低。

Description

广告投放模型的训练特征选取方法、系统、设备及介质

技术领域

本发明属于广告投放领域，涉及一种广告投放模型的训练特征选取方法、系统、设备及介质。

背景技术

点击率(Click-Through Rate，CTR)预估是广告投放中的一个重要环节，能够帮助广告平台实现广告曝光价值的判断。CTR预估从大量的展示日志中学习，展示日志记录了大量的广告，在广告上下文的情况下投给了相应的用户，以及相应的用户是否点击的数据。CTR预估将展示日志和Meta数据转化为数据样本，数据样本形如：广告相关特征[Feature1,Feature2,Feature3...]+上下文特征[Feature1,Feature2,Feature3...]+用户特征[Feature1，Feature2，Feature3...]+是否点击，通过数据样本训练广告投放模型，实现精准的广告投放。

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程在机器学习中占有相当重要的地位。在实际应用当中，可以说特征工程是机器学习成功的关键，特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程，特征工程又包含了Feature Selection(特征选择)、FeatureExtraction(特征提取)和Feature construction(特征构造)等子问题。其中，特征选择是特征工程里的一个重要问题，其目标是寻找最优特征子集。目前常用的特征选取方案有以下几种：过滤法：按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。包装法：根据目标函数(通常是预测效果评分)，每次选择若干特征，或者排除若干特征。嵌入法：先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征，嵌入法类似于过滤法，但是是通过训练来确定特征的优劣。

但是，在广告投放这个特定场景中，基于CTR预估上述方案有以下缺点：其中，过滤法只考虑了相关性，但是CTR预估优化是广告排序的正确性，即AUC(Area Under Curve)，所以过滤法产出的结果并不是跟目标线性相关。包装法和嵌入法都需要大量的模型训练，但是在CTR预估的场景下，训练样本通常是都是百万甚至千万级别的，模型训练成本较高。

发明内容

本发明的目的在于克服上述现有技术中，现有的广告投放模型训练特征选取方法准确性差，成本高的缺点，提供一种广告投放模型的训练特征选取方法、系统、设备及介质。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，一种广告投放模型的训练特征选取方法，包括以下步骤：

获取若干广告投放历史数据样本，将若干广告投放历史数据样本分为训练集和测试集；

获取广告投放模型的若干初始训练特征；

遍历各初始训练特征，获取训练集内当前初始训练特征的各特征值的历史CTR，得到各初始训练特征的各特征值的历史CTR；

根据各初始训练特征的各特征值的历史CTR，获取各初始训练特征在测试集上的AUC值；

将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。

本发明广告投放模型的训练特征选取方法进一步的改进在于：

所述将广告投放历史数据样本分为训练集和测试集的具体方法为：按照时间的先后顺序，将广告投放历史数据样本分为训练集和测试集。

所述测试集为一天的广告投放历史数据样本。

所述获取训练集内当前初始训练特征的各特征值的历史CTR的具体方法为：遍历各当前初始训练特征的各特征值，通过下式得到各特征值的历史CTR：

特征值的历史CTR＝M/N

其中，M表示训练集内当前特征值的所有广告投放历史数据样本中标记为点击的广告投放历史数据样本条数，N表示训练集内当前特征值的所有广告投放历史数据样本条数。

所述获取各初始训练特征在测试集上的AUC值的具体方法为：遍历各初始训练特，通过下式获取各初始训练特征在测试集上的AUC值：

AUC＝roc_auc_score(y_label，y_score)

其中，roc_auc_score为sklearn中的AUC计算函数，y_label＝{l₁，…，l_t，…，l_n}，l_t为测试集内第t条广告投放历史数据样本的标记值，标记为点击时标记值为1，否则标记值为0；y_score＝{s₁，…，s_t，…，s_n}，s_t为测试集内第t条广告投放历史数据样本的当前初始训练特征的特征值的历史CTR。

所述预设数量为50～100。

本发明第二方面，一种广告投放模型的训练特征选取系统，包括：

样本划分模块，用于获取若干广告投放历史数据样本，将若干广告投放历史数据样本分为训练集和测试集；

获取模块，用于获取广告投放模型的若干初始训练特征；

历史CTR确定模块，用于遍历各初始训练特征，获取训练集内当前初始训练特征的各特征值的历史CTR，得到各初始训练特征的各特征值的历史CTR；

AUC值确定模块，用于根据各初始训练特征的各特征值的历史CTR，获取各初始训练特征在测试集上的AUC值；

选取模块，用于将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。

本发明第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述广告投放模型的训练特征选取方法的步骤。

本发明第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述广告投放模型的训练特征选取方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明广告投放模型的训练特征选取方法，通过获取离线的广告投放历史数据，并将样本分为训练集和测试集，然后获取广告投放模型的若干初始训练特征，并根据其得到各初始训练特征的各特征值的历史CTR，进而由各初始训练特征的各特征值的历史CTR，获取各初始训练特征在测试集上的AUC值，根据AUC值选取广告投放模型的训练特征，每个训练特征的重要度度量方案跟模型效果评估一致，均是使用AUC值，保证训练特征的重要跟整体的优化目标一致，提升广告投放模型的准确性。同时，只需要进行数据样本及各特征值的统计，不需要进行模型训练，选取的成本较低。

附图说明

图1为本发明的广告投放模型的训练特征选取方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明一实施例中，提供了一种广告投放模型的训练特征选取方法，是一种计算成本较小，并且所选取的训练特征进行广告投放模型的训练后，能够直接优化广告投放的AUC，AUC(Area Under Curve)，意思是曲线下面积，在计算广告学中，AUC经常用于统计ROC曲线的面积，用来量化评估广告的CTR质量。具体的，该广告投放模型的训练特征选取方法包括以下步骤。

S1：获取若干广告投放历史数据样本，将若干广告投放历史数据样本分为训练集和测试集。

其中，获取广告投放历史数据样本，一般是获取一段时间内的广告投放历史数据样本，比如2021年1月1日到2021年1月14日的广告投放历史数据样本。

其中，广告投放历史数据样本形如：广告相关特征[Feature1，Feature2，Feature3..]+上下文相关特征[Feature1，Feature2，Feature3...]+用户相关特征[Feature1，Feature2，Feature3...]+是否点击。其中，广告、上下文以及用户相关特征均是训练特征。

具体的，将广告投放历史数据样本分为训练集和测试集的具体方法为：按照时间的先后顺序，将广告投放历史数据样本分为训练集和测试集。

广告投放模型的目标是根据过去的经验知识来预估当天的情况，常见的迭代方式是固定时间窗内的全量训练，而不是使用随机划分的方案来划分样本数据。因此，在实际应用中，测试集一般为一天的广告投放历史数据样本。

比如：2021年1月1日到2021年1月14日的数据作为训练样本，2021年1月15日的数据作为测试样本。

S2：获取广告投放模型的若干初始训练特征。

具体的，在获取广告投放模型的初始训练特征时，一般是根据操作人员的历史经验或者历史训练特征数据。

S3：遍历各初始训练特征，获取训练集内当前初始训练特征的各特征值的历史CTR，得到各初始训练特征的各特征值的历史CTR。

其中，遍历各当前初始训练特征的各特征值，通过下式得到各特征值的历史CTR：

特征值的历史CTR＝M/N

具体的，广告投放历史数据样本的label(标记值)标记用户是否点击，label为1表示点击，否则表示未点击。广告投放历史数据样本的总数即为总曝光数。对于具体的某一个特征值，想要统计它的总的点击数，只需要遍历训练集的广告投放历史数据样本，统计出现该特征值出现并且label为1的广告投放历史数据样本条数。想要统计总的曝光数，只需要遍历训练集的样本，统计出现该特征值的广告投放历史数据样本条数。

S4：根据各初始训练特征的各特征值的历史CTR，获取各初始训练特征在测试集上的AUC值。

其中，获取各初始训练特征在测试集上的AUC值的具体方法为：

遍历各初始训练特，通过下式获取各初始训练特征在测试集上的AUC值：

AUC＝roc_auc_score(y_label，y_score)

具体的，假设广告投放历史数据样本仅有2个维度的特征，分别是F1(性别)和F2(教育程度)。F1取值为f1(男)，f2(女)，F2取值为f1(小学)，f2(初中)，f3(高中)，f4(大学)。每个特征的HistoryCTR为HistoryCTR(男)＝0.4，HistoryCTR(女)＝0.3，HistoryCTR(小学)＝0.3，HistoryCTR(初中)＝0.2，HistoryCTR(高中)＝0.1,HistoryCTR(大学)＝0.1。

假设测试样本如下表1：

样本序号	性别	教育程度	Label
				1	男	初中	1
2	女	小学	1
				3	女	高中	0

这里计算F1(性别)的重要度，获得到的y-score＝(0.4,0.3,0.3),y-label＝(1,1,0)。

直接调用sklearn中的AUC计算方法，roc_auc_score(y_label,y_score)计算AUC，这个值即为F1(性别)的分类能力。其中，sklearn(Scikit-Learn)是基于Python语言的机器学习工具。

S5：将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。

具体的，将各个初始训练特征按照其在测试集上计算出来的AUC值进行排序，选择排名靠前的初始训练特征作为广告投放模型的训练特征，放入广告投放模型中进行训练。

离线模型模型训练好以后，在线模型会把模型载入，对于一个新的展示请求，抽取其中的信息，获得特征向量，然后用模型进行打分。如果使用的是逻辑回归模型，那么模型打分公示可以简单的写为

其中n为总特征数，feature_i为one-hot以后的特征，取值为0/1，weight_i为经过模型计算以后feature_i的权重，根据打分结果即可进行广告投放。最终结果是带来离线评测指标AUC的提升，进而带来线上流量采买的效果提升。

综上，本发明广告投放模型的训练特征选取方法，通过获取离线的广告投放历史数据样本，并分为分为训练集和测试集，然后获取广告投放模型的若干初始训练特征，并根据其得到各初始训练特征的各特征值的历史CTR，进而由各初始训练特征的各特征值的历史CTR，获取各初始训练特征在测试集上的AUC值，根据AUC值选取广告投放模型的训练特征，每个训练特征的重要度度量方案跟模型效果评估一致，均是使用AUC值，保证训练特征的重要跟整体的优化目标一致，提升广告投放模型的准确性。同时，只需要进行数据样本及各特征值的统计，不需要进行模型训练，选取的成本较低。

下述为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明再一实施例中，提供了一种广告投放模型的训练特征选取系统，能够用于实现上述的广告投放模型的训练特征选取方法，具体的，该广告投放模型的训练特征选取系统包括样本划分模块、获取模块、历史CTR确定模块、AUC值确定模块以及选取模块。

其中，样本划分模块用于获取若干广告投放历史数据样本，将若干广告投放历史数据样本分为训练集和测试集；获取模块用于获取广告投放模型的若干初始训练特征；历史CTR确定模块用于遍历各初始训练特征，获取训练集内当前初始训练特征的各特征值的历史CTR，得到各初始训练特征的各特征值的历史CTR；AUC值确定模块用于根据各初始训练特征的各特征值的历史CTR，获取各初始训练特征在测试集上的AUC值；选取模块用于将AUC值前预设数量大的初始训练特征作为广告投放模型的训练特征。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于广告投放模型的训练特征选取方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关广告投放模型的训练特征选取方法的相应步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种广告投放模型的训练特征选取方法，其特征在于，包括以下步骤：

获取广告投放模型的若干初始训练特征；

2.根据权利要求1所述的广告投放模型的训练特征选取方法，其特征在于，所述将广告投放历史数据样本分为训练集和测试集的具体方法为：

按照时间的先后顺序，将广告投放历史数据样本分为训练集和测试集。

3.根据权利要求2所述的广告投放模型的训练特征选取方法，其特征在于，所述测试集为一天的广告投放历史数据样本。

4.根据权利要求1所述的广告投放模型的训练特征选取方法，其特征在于，所述获取训练集内当前初始训练特征的各特征值的历史CTR的具体方法为：

遍历各当前初始训练特征的各特征值，通过下式得到各特征值的历史CTR：

特征值的历史CTR＝M/N

5.根据权利要求1所述的广告投放模型的训练特征选取方法，其特征在于，所述获取各初始训练特征在测试集上的AUC值的具体方法为：

AUC＝roc_auc_score(y_label，y_score)

6.根据权利要求1所述的广告投放模型的训练特征选取方法，其特征在于，所述预设数量为50～100。

7.一种广告投放模型的训练特征选取系统，其特征在于，包括：

获取模块，用于获取广告投放模型的若干初始训练特征；

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述广告投放模型的训练特征选取方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述广告投放模型的训练特征选取方法的步骤。