CN109711907B

CN109711907B - 一种基于顶端排序的在线广告排序方法

Info

Publication number: CN109711907B
Application number: CN201910052451.2A
Authority: CN
Inventors: 詹德川; 王嘉时; 董坚; 周志华
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2022-09-23
Anticipated expiration: 2039-01-21
Also published as: CN109711907A

Abstract

本发明公开一种基于顶端排序的在线广告排序方法，利用消费者只关注顶部推荐位置广告的用户特性，采用顶端排序模型(TopPush算法)来进行待推荐广告的有效排序，得到当时段广告各个特征的权重，量化出广告不同维度的重要性。同时使用大窗口(过去多时间段样本)与小窗口(拼接过去多时段特征及转化率)框架，通过窗口的滑动来动态的更新排序结果，将预测高转化率的广告排序在前，从而更有针对性的为消费者提供商品推荐，以提升推荐效果。

Description

一种基于顶端排序的在线广告排序方法

技术领域

本发明涉及一种基于顶端排序的在线广告排序方法，属于推荐排序技术领域。

背景技术

随着数字媒体技术的飞速发展，各种形式的广告萦绕在人们身边，企业也不断的提高在广告方面的投入，但是如何更好地将所投入的广告转化变现是一个值得深究的问题。而网站的在线广告投放是其中重要的一环：网站要对所有广告进行推送，如何推送用户感兴趣的广告，将用户最可能购买的商品(高转化率)放在最顶端的位置是网站首要考虑的问题，其不仅可以极大的提升企业的利润，也可以在一定程度上提升用户粘性。传统做法使用排序模型对广告进行排序，并根据排序结果在网站上排列，但是传统排序模型无法解决的是，用户往往只会对推荐位前几位的广告给予一定关注，而略过推荐位置靠后的广告，这种现象与信息检索有相通之处，即用户在进行网页搜索时，他只关注搜索出来排序前几名的网页是否与搜索条目相关，而不关心排名靠后的网页。于是排在推荐位顶部的广告的转化率高低与否(是否是用户真正感兴趣并愿意为其产品付费)就变得尤为重要。同时，广告的潜在模式也在不断变化，如消费者的消费模式，广告的针对人群等，静态排序无法捕捉这种模式的变动，需要对在线广告进行动态排序。最后，在发现广告模式的变动之后，从特征维度的解释也可以为广告投放者提供一种审视的角度。

发明内容

发明目的：考虑到在线广告推荐用户注意力顶端聚集的现象，同时广告潜在模式的演变，本发明提出一种基于顶端排序的在线广告排序方法，该方法利用TopPush挖掘广告各类特征对广告购买转化率的影响，对广告转化率排名顶部的数据模式进行学习，得到当时段广告各个特征的权重，同时使用大窗口(过去多时间段样本)与小窗口(拼接过去多时段特征与转化率)框架，更新下一时段广告排序，通过为消费者提供其感兴趣的产品广告来提升推荐效果。

技术方案：一种基于顶端排序的在线广告推荐方法，利用top rank模型挖掘广告各类特征对广告购买转化率的影响，从而进行广告推荐的动态排序，使用TopPush算法对转化率排名顶部的广告特征进行学习，同时使用大窗口(过去多时间段样本)与小窗口(拼接过去多时段该广告特征与转化率)框架，预测下一时间段的广告转化率，进而对所有广告进行排序来为消费者进行推送。具体包括如下步骤：

首先，用户先准备好一个广告样本库，其中每一个广告样本(以下简称样本)都带有多维特征，且以下一时段该样本广告转化率为标记，这些广告样本就是训练数据。接着，将数据使用大窗口+小窗口的模式组织，其中大窗口与小窗口均是由用户选定的时间段长度。对每一次模型更新，提取大窗口长度的数据作为当次训练池，接着在这个训练池中，对每个时间点提取前小窗口长度个广告样本数据及其转化率标记，作为当次训练的一个训练样本，将当期各个样本标记通过可调节的比重设定为正例与负例，之后使用TopPush算法，对广告转化率排名的顶部数据模式进行学习，赋予排序顶端的负例更大的错误代价，得到各个特征权重，之后使用权重与当期广告特征计算出各个广告排序值，并根据相应排序位置给予推荐。在保持一期后在下一期重新根据选取的大小窗口构建训练数据并训练模型，更新所有广告的排序，以迎合消费者偏好的变化。

有益效果：与现有技术相比，本发明针对性的利用消费者只关注顶部推荐位置广告的用户特性，采用顶端排序模型来进行待推荐广告的有效排序，得到当时段广告各个特征的权重，量化出广告不同维度的重要性。同时利用多时段数据以及过去相应广告标记来填充特征，通过窗口的滑动来动态的更新排序结果，将预测高转化率的广告排序在前，从而更有针对性的为消费者提供商品。

附图说明

图1是本发明原理流程图；

图2是本发明的流程图；

图3是TopPush算法的流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于顶端排序的在线广告推荐方法，首先，用户先准备好一个广告样本数据库，其中每一个广告样本(以下简称样本)都带有多维特征，如所展示产品的类别、价格、与该网页的相关性等等，且具有因变量数据(广告实际转化率)，这些就是训练数据。接着，在用户选定时间段内(大窗口)，提取每个广告在该时间段内的特征及该时间段内转化率，同时拼接多时间段特征及过往转化率标记(小窗口)，得到当次训练数据，使用顶端排序模型优化排序顶部的正确率得到各特征权重，在测试时使用同样的构建方式得到当期测试数据，与各特征权重结合后得到各广告的排序结果，用于之后的在线广告排序，在下一期重新学习权重以对广告排序进行更新。

本发明的主要流程如图2所示。首先拿到的是c个样本的多维特征数据X∈R^n×d和对应的因变量数据(转化率)Y∈R^n×1。步骤1是起始动作；步骤2由用户输入大窗口时间长度参数wb与小窗口时间长度参数ws，大窗口用于后面训练池长度的选择，小窗口用于确定每个训练样本由多少期数据拼接而成每条训练特征的构建；步骤3对数据进行预处理，包括对数据的差分及标准化，以去掉不同量纲特征对模型的影响以及一定程度上加速收敛；步骤4，构建当期样本训练池(大窗口)，选取前1期样本X_t-1至前wb期样本X_t-wb作为训练池，用于下一步特征的组合之后构建当期训练集；步骤5与步骤6负责构建具体的特征及标记(小窗口)，步骤5将特征进行拼接，针对一个广告样本i，将其前ws期特征与前ws期转化率共同拼接为x_i∈R^1×ws*(d+1)，其中ws*d为广告样本过去的特征，ws*1为提取其过去转化率作为新的特征；步骤6将当期所有广告样本按照其转化率排序，将前30％作为正例，后30％作为负例，通过使模型学习更具有代表性的样本，从而提升模型的效果；在构造完当期训练集后，步骤7使用TopPush算法得到各个特征权重；之后步骤8使用相同的构造方法构造当期广告的样本特征；步骤9使用步骤7得到的TopPush权重与步骤8构造的特征进行内积，得到当期所有广告的排序；步骤10对当期广告根据排序的结果进行全部或者部分的显示，之后可以在下一期时跳转到步骤4或者跳转到11结束动作。

图3说明TopPush算法的流程。开始于步骤12，此时算法的输入是特征矩阵X∈Rⁿ¹ ^×d1、标记向量Y∈R^n1×1以及参数λ，其中n1为c个广告样本在大窗口wb时间段内的训练数据，即n1＝c*wb，d1为小窗口拼接后的特征长度，即d1＝ws*(d+1)，λ为正则化参数；步骤13初始化算法参数，包括最大迭代次数/误差精度ε/λ；步骤14至步骤17为循环迭代过程，直至满足收敛条件，具体的，步骤14在迭代到第k次时，在求取原问题的对偶问题后，计算其辅助解(Nesterov方法)：

其中α_k与β_k为对偶问题的对偶变量，在原问题中我们想求出各广告特征的最优权重w^*，那么最优权重可以由对偶变量计算得出。

步骤15计算辅助解

与

的梯度g_α与g_β

其中

l_*(α)为截断二次损失的凸共轭，l_*′(α)为其导数；ν＝α^ΤX⁺-β^ΤX^-为Nesterov动量法的速度。

步骤16将对偶解投影到Ξ域

[α_k+1；β_k+1]＝π_Ξ([α′_k+1；β′_k+1]) (6)

其中

将二者投影至Ξ域使其有可行解，以此来更新α与β，之后在新的近似解决方案中计算目标值，循环计算直到目标值满足条件：

其中L_k为Nesterov动量法迭代中间变量，用于控制游走步长，在满足条件后跳出步骤16，在步骤17中，判断模型的收敛条件：

|g(α_k+1,β_k+1)-g(α_k,β_k)|＜ε (8)

若满足，则跳转到18步返回顶端排序模型的权重W，最后步骤11结束算法返回；若不满足收敛条件，跳转到步骤14进行下一轮的迭代。

Claims

1.一种基于顶端排序的在线广告排序方法，其特征在于，包括如下步骤：首先，获取广告样本数据库作为训练数据，其中每一个广告样本都带有多维特征，且具有因变量数据；接着，在用户选定时间段内，提取每个广告在该时间段内的特征及该时间段内转化率，同时拼接多时间段特征及过往转化率标记，得到当次训练数据，使用顶端排序模型优化排序顶部的正确率得到各特征权重，在测试时使用同样的构建方式得到当期测试数据，与各特征权重结合后得到各广告的排序结果，用于之后的在线广告排序，在下一期重新学习权重以对广告排序进行更新；

使用TopPush算法得到各个特征权重，TopPush算法输入是广告样本特征矩阵X∈R^n1×d1、标记向量Y∈R^n1×1以及参数λ，其中n1为c个广告样本在大窗口wb时间段内的训练数据，即n1＝c*wb，d1为小窗口拼接后的特征长度，即d1＝ws*(d+1)，λ为正则化参数，ws为小窗口时间长度参数，ws*d为广告样本过去的特征，ws*1为提取其过去转化率作为新的特征；步骤13初始化算法参数，包括最大迭代次数/误差精度ε/λ；步骤14至步骤17为循环迭代过程，直至满足收敛条件，具体的，步骤14在迭代到第k次时，在求取原问题的对偶问题后，计算其辅助解：