CN105787767A

CN105787767A - 一种广告点击率预估模型获取方法与系统

Info

Publication number: CN105787767A
Application number: CN201610119769.4A
Authority: CN
Inventors: 陈海林
Original assignee: SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2016-07-20

Abstract

本发明公开了一种广告点击率预估模型获取方法与系统，获取根据用户、查询关键词、查询结果中被点击的广告以及广告展示次数的数据生成的历史点击日志数据，根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据，建立张量，使用塔克张量分解法对所述张量进行分解，得到所述张量降维后的近似张量；根据其他目标属性特征数据和所述近似张量，进行基于径向基函数的支持向量机学习，得到广告点击率预估模型，充分考虑了用户、查询关键词和广告之间的关系，使用特征降维和特征学习结合的方式，可以准确地进行广告点击率的预估。

Description

一种广告点击率预估模型获取方法与系统

技术领域

本发明涉及信息预测领域，特别是涉及一种广告点击率预估模型获取方法与系统。

背景技术

在线广告是互联网的商业模式之一，随着在线推广技术的发展，广告由“粗放式”投放正在向“精准化”投放转变，这一领域的研究称之为“计算广告学”。广告的点击率(CTR，Click-Through-Rate)是评价用户对广告的偏好程度的重要指标，对于广告的精准投放意义重大，因此点击率预估是信息检索和机器学习等领域研究的热点问题。

搜索广告呈现出数据量大、特征高维稀疏的特点，高维特征中有效信息(非0值)的维度很低，数据中包含的噪声会对真实信息干扰很大。已有的方法一般采用人工组合特征的方法来构造有用的特征，但是这种方法效率低并且不容易扩展，使得大多数CTR预估方法无法高效的在稀疏、高维的广告数据上获得准确的预估点击率。传统的解决方法是数据降维，如基于奇异值分解的SVD，抽取特征主成分的PCA，线性判别分析LDA等。但是这些方法在数据降维的同时，没有考虑广告点击数据呈现用户、查询和广告三维空间的内在关联，破坏了三者之间的内在联系，信息损失较大，无法精确地进行广告点击率预估。

发明内容

有鉴于此，本发明的主要目的在于提供一种广告点击率预估模型获取方法与系统，可以准确地进行广告点击率的预估。

为实现上述目的，本发明提供了一种广告点击率预估模型获取方法，包括：

获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后，得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据；

根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据；

根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量；

使用塔克张量分解法对所述张量进行分解，得到所述张量降维后的近似张量；

根据其他目标属性特征数据和所述近似张量，进行基于径向基函数的支持向量机学习，得到广告点击率预估模型。

优选地，所述历史点击日志数据包括：

由用户、查询关键词、广告和对应的广告展示次数组成的四元组作为唯一标识的各广告点击数据。

优选地，所述根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据包括：

根据所述广告展示次数数据、所述广告数据以及所述查询关键词数据建立广告与查询关键词关联的第一权重矩阵，根据所述广告展示次数数据、所述用户数据以及所述查询关键词数据建立用户与查询关键词关联的第二权重矩阵；

使用K-means方法对所述第一权重矩阵进行针对用户数据的聚类得到聚类后的用户数据，使用K-means方法对所述第一权重矩阵进行针对查询关键词数据的聚类得到聚类后的查询关键词数据，使用K-means方法对所述第二权重矩阵进行针对用户数据的聚类得到聚类后的用户数据。

优选地，所述目标属性特征数据包括：

广告在返回页面的位置数据，广告数量数据、用户年龄数据和用户性别数据。

优选地，得到广告点击率预估模型后还包括：

根据所述广告点击率预估模型对给定查询关键词后的目标广告的点击率进行预测。

本发明还提供了一种广告点击率预估模型获取系统，包括：

历史数据获取模块，用于获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后，得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据；

聚类降维模块，用于根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据；

张量建立模块，用于根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量；

张量降维模块，用于使用塔克张量分解法对所述张量进行分解，得到所述张量降维后的近似张量；

模型建立模块，用于根据其他目标属性特征数据和所述近似张量，进行基于径向基函数的支持向量机学习，得到广告点击率预估模型。

优选地，所述历史点击日志数据包括：

优选地，所述聚类降维模块包括：

权重矩阵构建子模块，用于根据所述广告展示次数数据、所述广告数据以及所述查询关键词数据建立广告与查询关键词关联的第一权重矩阵，根据所述广告展示次数数据、所述用户数据以及所述查询关键词数据建立用户与查询关键词关联的第二权重矩阵；

聚类子模块，用于使用K-means方法对所述第一权重矩阵进行针对用户数据的聚类得到聚类后的用户数据，使用K-means方法对所述第一权重矩阵进行针对查询关键词数据的聚类得到聚类后的查询关键词数据，使用K-means方法对所述第二权重矩阵进行针对用户数据的聚类得到聚类后的用户数据。

优选地，所述目标属性特征数据包括：

优选地，所述广告点击率预估模型获取系统还包括：

点击率预测模块，用于根据所述广告点击率预估模型对给定查询关键词后的目标广告的点击率进行预测。

应用本发明提供的一种广告点击率预估模型获取方法与系统，获取根据用户、查询关键词、查询结果中被点击的广告以及广告展示次数的数据生成的历史点击日志数据，根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据，建立张量，使用塔克张量分解法对所述张量进行分解，得到所述张量降维后的近似张量；根据其他目标属性特征数据和所述近似张量，进行基于径向基函数的支持向量机学习，得到广告点击率预估模型，充分考虑了用户、查询关键词和广告之间的关系，使用特征降维和特征学习结合的方式，得到准确的广告点击率预估模型，从而可以准确地进行广告点击率的预估。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种广告点击率预估模型获取方法实施例一的流程图；

图2为本发明一种广告点击率预估模型获取方法实施例一的广告数据三维张量的塔克分解模型；

图3为本发明一种广告点击率预估模型获取方法实施例一的点击率预估模型获取流程图；

图4为本发明一种广告点击率预估模型获取系统实施例二的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

本发明提供了一种广告点击率预估模型获取方法，图1示出了本发明广告点击率预估模型获取方法的流程图，包括：

步骤S101：获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后，得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据；

当用户u提交查询关键词q后，搜索引擎会返回一组经过排序的广告列表，用户浏览返回列表并点击感兴趣的广告a。历史点击日志数据中的每条记录可以用一个四元组<u，q，a，s>唯一标识，u表示用户，q表示查询关键词，a表示广告，s表示给定<用户，查询，广告>情况下的展示次数。

步骤S102：根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据；

在历史点击日志数据中，用户之间、查询关键词之间以及广告之间都可能存在相似性，因此首先从相关性的角度对用户、查询关键词和广告三个维度分别进行聚类降维。

例如用日志数据中提供的广告展示次数来建立广告-查询权重矩阵W_Na*Nq，其中Na行表示广告数，N_q列表示查询数。W_ij表示广告A_i对查询Q_j的权重。

\begin{matrix} Q_{1} & ...... & Q_{j} & Q_{N q} \\ A_{1} & W_{1, 1} & ...... & W_{1, j} & W_{1, N q} \\ ...... & ...... & ...... & ...... & ...... \\ A_{i} & W_{i, 1} & ...... & W_{i, j} & W_{i, N q} \\ A_{N a} & W_{N a, 1} & ...... & W_{N a, j} & W_{N a, N q} \end{matrix}

对该广告-查询矩阵分别采用K-means算法进行聚类，查询集合进行一次降维处理，以降低张量分解的计算开销，针对广告维度的K-means算法流程如下：

输入：广告-查询矩阵W_M*N，广告聚类簇数K；

输出：K个广告簇集合；

1.对广告-查询矩阵W_M*N进行扫描，得到所有的M个广告和N个查询，分别记作A＝{a₁,a₂......,a_M}和Q＝{q₁,q₂......,q_M}；

2.从M个广告中随机抽取K个作为最初的聚类中心点，记作T＝{t₁,t₂......,t_M}；

3.K个聚类集合{c₁,c₂......,c_k}初始化为空集；

4.计算每个广告ai与各个聚类中心点ti之间的距离，计算公式如下:

D (a_{i}, t_{j}) = \sqrt{\underset{c &Element; G_{i j}}{Σ} {(W_{a_{i}} - W_{a_{j}})}^{2}};

其中G_ij表示广告a_i与作为聚类中心的广告t_i共同展现的查询集合，与分别是广告a_i与t_i的权重(展示次数)。

5.若D(a_i,t_j)＝max(D(a_i,t₁),D(a_i,t₂),......,D(a_i,t_k))，则广告a_i属于簇c_j；

6.计算同一聚类集合中所有广告的平均权重值，重新生成聚类中心；

7.如果聚类中心的偏差达到了设定的阈值，则聚类完成；否则转到第5步重新计算。

通过对广告的初始聚类，将具有相似查询的广告聚合到同一簇中，使得同一簇中的广告相似度尽可能的高。同样基于权重矩阵，对查询进行聚类，也就是说基于同一个广告-查询矩阵分别作聚类，聚类顺序不会影响后续的张量模型的建立。关于用户维度的聚类，同样的假设具有相同查询需求的用户具有相似性，用户的聚类直接由查询的聚类结果导出。同理对用户和查询关键词进行聚类后，将聚类结果保存在数据库中。

步骤S103：根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量；

基于聚类后的数据，利用聚类后的广告簇中广告的展示数之和作为三维空间中元素的权重，建立“用户-查询-广告-权重”四元关系〈u_i,q_j,a_k,w_i,j,k〉。

利用聚类后的用户数据、查询关键词和广告数据构建三维张量模型，用表示，三个维度的维度数分别是K_u,K_q,K_a。

步骤S104：使用塔克张量分解法对所述张量进行分解，得到所述张量降维后的近似张量；

构建三维张量后，利用塔克张量分解法(TuckerFactorization)，分解张量H，公式如下:

C表示张量H的核心张量(CoreTensor)，类似于奇异值分解的对角矩阵，U，Q，A表示张量H在维度K_u,K_q,K_a上对应的特征矩阵，是张量H在对应三个维度上的主成分。

Tucker塔克分解的目的是找到一个与原始张量H近似的张量表示，并且最大程度保留原始的张量信息和结构信息。Tucker分解计算得到一个与原张量相近的张量表示，通过最小化下式得到：

\begin{matrix} \min_{H} | | H - H | | \\ C \times U_{u} \times Q_{q} \times A_{a} = C; U, Q, A; \end{matrix}

该公式表示原始张量与近似张量的近似程度，是优化的目标函数，通过最小化目标函数，以保证信息损失最小。

核心张量的表达式如下：

C＝H×_uU^T×_qQ^T×_aA^T；

目标函数可以写成平方形式，即：

||H-C；U,Q,A||²

＝||H||²-2>H×_uU^T×_qQ^T×_aA^T,C>+||C||²

＝||H||²-2<C,C>+||C||²

＝||H||²-||C||²

＝||H||²-||H×_uU^T×_qQ^T×_aA^T||²

||H||²是一个常数，由原来的张量确定。因此，目标函数转化为上式右边的最大化问题的最优解，即：

max||H×_uU^T×_qQ^T×_aA^T||²；

上式可转化为：

||U^TW||,W＝H×_qQ^T×_aA^T；

||Q^TW||,W＝H×_uU^T×_aA^T；

||A^TW||,W＝H×_uU^T×_qQ^T；

在求最优解的过程中，需要固定其它维度的特征矩阵，即变量W，依次求解U^T,Q^T,A^T然后对U^T,Q^T,A^T进行SVD分解，则可求得最优解。对U^T,Q^T,A^T进行SVD分解时，首先展开张量H，分别在用户、查询、广告维度上展开张量H为矩阵，记作H₁,H₂,H₃，三个矩阵的维度为：

H_{1} &Element; R^{K_{u} * K_{q} * K_{a}};

H_{2} &Element; R^{K_{u} * K_{q} * K_{a}};

H_{3} &Element; R^{K_{u} * K_{q} * K_{a}};

在三个矩阵H1,H2,H3上应用奇异值分解(SVD)，可得到：

H₁∈U·C₁·V₁ ^T，

H₂∈Q·C₂·V₂ ^T，

H₃∈A·C₃·V₃ ^T；

对于矩阵H₁,H₂,H₃，需要确定三个维数的参数，分别是左奇异值矩阵U，Q，A中的维数C₁,C₂,C₃。这三个参数决定张量H的核心张量C的维数，三个对角的奇异值矩阵C₁,C₂,C₃是通过对张量H的展开矩阵H₁,H₂,H₃进行奇异值分解得到的，而核心张量C的计算则是通过三个对角奇异值矩阵C₁,C₂,C₃求得。维数c₁,c₂,c₃的计算则通过对C₁,C₂,C₃的对角奇异值从大到小按照比例计算而得。保留大的奇异值，按照比例删减小的奇异值，从而达到维数的归约、对原始张量降维的目的。本实施例采用的删减奇异值的比例设置为50％，即表示经过归约的维数等于c₁,c₂,c₃的50％，删减奇异值的比例可根据需求进行设定调节。

由于通过维数归约，确定降维后的新维数参数计算降维后的新的核心张量C：

C = H \times U_{{\hat{c}}_{1}}^{T}_{u} \times Q_{{\hat{c}}_{2}}^{T}_{q} \times A_{{\hat{c}}_{3}}^{T}_{a};

确定新核心张量C，以及新的特征矩阵即对原来的张量H进行降维后，构建得到新的降维后的近似张量H：

C = H \times U_{{\hat{c}}_{1}}^{T}_{u} \times Q_{{\hat{c}}_{2}}^{T}_{q} \times A_{{\hat{c}}_{3}}^{T}_{a} .

图2为广告数据三维张量的Tucker分解模型。

步骤S105：根据其他目标属性特征数据和所述近似张量，进行基于径向基函数的支持向量机学习，得到广告点击率预估模型。

所述目标属性特征数据可包括：广告在返回页面的位置数据，广告数量数据、用户年龄数据和用户性别数据等，将上述特征和求出的近似张量作为支持向量机的输入，输入特征内容构成如下表1所示：

采用径向基RBF核函数，学习特征之间的非线性关系，得到广告点击率的预估模型，然后基于学习出的模型预测点击率。

如图3所示，为本实施例中广告点击率预估模型的获取流程图，分为特征降维和特征学习两部分。

应用本实施例提供的一种广告点击率预估模型获取方法，获取根据用户、查询关键词、查询结果中被点击的广告以及广告展示次数的数据生成的历史点击日志数据，根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据，建立张量，使用塔克张量分解法对所述张量进行分解，得到所述张量降维后的近似张量；根据其他目标属性特征数据和所述近似张量，进行基于径向基函数的支持向量机学习，得到广告点击率预估模型，充分考虑了用户、查询关键词和广告之间的关系，使用特征降维和特征学习结合的方式，得到准确的广告点击率预估模型，从而可以准确地进行广告点击率的预估。

本发明还提供了一种广告点击率预估模型获取系统，图4示出了本发明广告点击率预估模型获取系统实施例的结构示意图，包括：

历史数据获取模块101，用于获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后，得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据；

聚类降维模块102，用于根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据；

张量建立模块103，用于根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量；

张量降维模块104，用于使用塔克张量分解法对所述张量进行分解，得到所述张量降维后的近似张量；

模型建立模块105，用于根据其他目标属性特征数据和所述近似张量，进行基于径向基函数的支持向量机学习，得到广告点击率预估模型。

本实施例中，所述历史点击日志数据可包括：

所述聚类降维模块102可包括：

所述目标属性特征数据可包括：

广告点击率预估模型获取系统还可包括：

应用本实施例提供的一种广告点击率预估模型获取系统，获取根据用户、查询关键词、查询结果中被点击的广告以及广告展示次数的数据生成的历史点击日志数据，根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据，建立张量，使用塔克张量分解法对所述张量进行分解，得到所述张量降维后的近似张量；根据其他目标属性特征数据和所述近似张量，进行基于径向基函数的支持向量机学习，得到广告点击率预估模型，充分考虑了用户、查询关键词和广告之间的关系，使用特征降维和特征学习结合的方式，得到准确的广告点击率预估模型，从而可以准确地进行广告点击率的预估。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的方法和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种广告点击率预估模型获取方法，其特征在于，包括：

2.根据权利要求1所述的广告点击率预估模型获取方法，其特征在于，所述历史点击日志数据包括：

3.根据权利要求1所述的广告点击率预估模型获取方法，其特征在于，所述根据所述广告展示次数数据，分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维，分别得到聚类后的用户数据，聚类后的查询关键词数据和聚类后的广告数据包括：

4.根据权利要求1所述的广告点击率预估模型获取方法，其特征在于，所述目标属性特征数据包括：

5.根据权利要求1所述的广告点击率预估模型获取方法，其特征在于，得到广告点击率预估模型后还包括：

6.一种广告点击率预估模型获取系统，其特征在于，包括：

7.根据权利要求6所述的广告点击率预估模型获取系统，其特征在于，所述历史点击日志数据包括：

8.根据权利要求6所述的广告点击率预估模型获取系统，其特征在于，所述聚类降维模块包括：

9.根据权利要求6所述的广告点击率预估模型获取系统，其特征在于，所述目标属性特征数据包括：

10.根据权利要求6所述的广告点击率预估模型获取系统，其特征在于，还包括：