CN108171545A

CN108171545A - 一种基于层次等级数据的转化率预估方法

Info

Publication number: CN108171545A
Application number: CN201711439303.3A
Authority: CN
Inventors: 彭文元; 周小强; 申晓宏
Original assignee: Yc (shanghai) Information Technology Co Ltd
Current assignee: Yc (shanghai) Information Technology Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-06-15

Abstract

本发明公开了一种基于层次等级数据的转化率预估方法，包括以下步骤：获取投放信息数据并对数据进行层次分级处理；建立各个层级及层级组合的转化率预估模型；通过逻辑回归将预估模型进行组合得到一个更准确的预估模型；根据获取的投放信息数据通过预估模型进行转化率预估；采用不同的二项分布来对不同的转换事件进行建模，并分别评估分布参数对模型的影响，之后会使用逻辑回归将这些不同的预估模型进行整合，进而可以预估各种不同的转换事件；在用户、发布者和广告主的转化数据层次结构中，分别采用不同的二项分布，并分别评估分布参数；最后使用逻辑回归将这些不同的预估模型进行组合，这样就可以更准确地预测每次展现的转化率。

Description

一种基于层次等级数据的转化率预估方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于层次等级数据的转化率预估方法。

背景技术

在定向广告中，主要目的就是向用户展现用户最有可能做出购买、注册等行为的广告，所以必须对用户看到的广告做行为预估，比如用户大概有多大几率会去购买相关产品，称之为转化率预估。然而转化率预估的挑战性在于在不同的数据维度中存在着多种极端数据，并且很少发生转换事件。在实时竞价中，互联网广告DSP(Demand-Side Platform)通常会计算一个最合适的出价来使投放效果最大化，那么如何计算这个出价自然就成为最重要的一个环节了，假设广告主要达到某个CPC(每次点击成本,Cost Per Click)或CPA(每次行动成本，Cost Per Action)目标，那么可以将该出价等价于CPC*CTR(点击通过率，Click-Through-Rate)或CPA*CVR(转化率，Conversion Rate)。在这种情况下，活动投放效果直接取决于CTR或CVR的预估准确性，而性能优化可以被认为是准确估计CTR或CVR的问题。如果这两个值被高估了，竞价价格将永远高于其应有的水平，广告客户则会把预算浪费在没有回报的展现上；另一方面，如果这两个值被低估了，广告客户就会错过可能导致转化的高价值展现。CTR和CVR直接关系到用户在给定上下文中与广告进行交互的意图，他们从根本上来说是很难直接建模和预测的。在实际应用中，CVR是比CTR更难预估的，因为转化数据比点击数据要少的多，从数据量的角度看就更能难以建模.

发明内容

鉴于目前存在的上述不足，本发明提供一种简单有效的基于层次等级数据的转化率预估方法，可以更准确地预测每次展现的转化率。

为达到上述目的，本发明的实施例采用如下技术方案：

一种基于层次等级数据的转化率预估方法，所述基于层次等级数据的转化率预估方法包括以下步骤：

获取投放信息数据并对数据进行层次分级处理；

建立各个层级及层级组合的转化率预估模型；

通过逻辑回归将预估模型进行组合得到一个更准确的预估模型；

根据获取的投放信息数据通过预估模型进行转化率预估。

依照本发明的一个方面，所述获取投放信息数据并对数据进行层次分级处理包括：获取投放信息数据并划分为用户、发布者和广告主的转化数据层次结构。

依照本发明的一个方面，所述建立各个层级及层级组合的转化率预估模型包括如下步骤：

假设给定一组参数化的请求{user:u_i,page:p_j}，需要找到一个能使转化率最高的广告a_k；u_i表示当前发起请求的用户，p_j表示媒体页面。

挑选出一组用户，并且这些用户的CVR跟指定用户u_i的CVR相似，那么可以将转化率近似表达为：

其中表示的是用户u_i所属的用户组，p_j为页面，a_k表示用户所看的广告，Y＝1|u_i,p_j,a_k表示发生转化时的用户u_i在p_j页面上看到了广告a_k。

依照本发明的一个方面，所述转化率表达式取决于中的所有用户是否都在p_j这个页面中看到了广告a_k，从而简化为：

其中S_ijk表示发生转化的样本数量，T_ijk表示样本中的展现数量。

依照本发明的一个方面，基于更高层级数据，所述转化率表达式可修改为：

其中，和分别表示网页组和广告组；表示属于用户组的用户i，表示属于网页组的网页j,表示属于广告组的广告k。

由此，在等级l_u,l_p,l_a上的三组数据分别表示为其中，表示的是在第l_u层级上的所有用户组数据，同样地和表示的是在第l_p和l_a层级上的所有页面组和广告组数据。

依照本发明的一个方面，所述通过逻辑回归将预估模型进行组合得到一个更准确的预估模型包括：

使用逻辑回归将这些不同的预估模型进行组合得到一个更准确的预估模型，其表达式为：

其中β表示的是M个模型的参数集合，在组合模型中需要用到该参数集来进行调优。

假设有M个模型，对于每次展现，可以将M个模型预估得到的值存入数据库中，使用y_s∈{0,1}来表示第s层的展现是否展现，p^s1,…,p^sm表示相同的展现的最大的转化率，从而可以将训练数据的似然函数表示为：

其中表示s层的转化率与β矩阵进行矩阵相乘之后进行求和。

接下来可以使用该函数来寻求某个β值使用上述函数的值达到最大，然后们使用sigmod函数将不同的预估模型进行组合，通过该函数可以寻找到最优的参数集：

其中p^s＝[p^s1,…,p^sM]^T，β^T表示矩阵转换，argmax表示求和之后的最大值。依照本发明的一个方面，对组合获得的预估模型表达式进行解释的方法包括：将M个预估模型视为一个分类模型中的因子或特征，并使用最优的线性组合方式尽可能准确地对训练数据进行分类。

依照本发明的一个方面，在使用逻辑回归将所有的预估模型结合起来的过程中，使用无条件的中值估算，在训练示例中，在所有未丢失属性的中值中，显示一个属性的所有缺失值。

依照本发明的一个方面，丢弃那些方差小于某个阈值的属性，将剩下的属性的缺失值进行了估算，并使用生成的数据进行训练模型。

依照本发明的一个方面，所述基于层次等级数据的转化率预估方法包括：校准逻辑回归的输出得分，通过给定的逻辑回归得分来计算真实的转化率。

本发明实施的优点：本发明所述的基于层次等级数据的转化率预估方法，包括以下步骤：获取投放信息数据并对数据进行层次分级处理；建立各个层级及层级组合的转化率预估模型；通过逻辑回归将预估模型进行组合得到一个更准确的预估模型；根据获取的投放信息数据通过预估模型进行转化率预估；采用不同的二项分布来对不同的转换事件进行建模，并分别评估分布参数对模型的影响，之后会使用逻辑回归将这些不同的预估模型进行整合，进而可以预估各种不同的转换事件；提出了一种简单有效的方法来预估广告展现的CVR，在用户、发布者和广告主的转化数据层次结构中，分别采用不同的二项分布，并分别评估分布参数。最后使用逻辑回归将这些不同的预估模型进行组合，这样就可以更准确地预测每次展现的转化率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所述的一种基于层次等级数据的转化率预估方法示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，一种基于层次等级数据的转化率预估方法，所述基于层次等级数据的转化率预估方法包括以下步骤：

步骤S1：获取投放信息数据并对数据进行层次分级处理；

所述步骤S1获取投放信息数据并对数据进行层次分级处理的具体实施方式包括：：获取投放信息数据并划分为用户、发布者和广告主的转化数据层次结构。

步骤S2：建立各个层级及层级组合的转化率预估模型；

所述步骤S2建立各个层级及层级组合的转化率预估模型的具体实施方式可为：

需要注意的是该表达式取决于中的所有用户是否都在p_j这个页面中看到了广告a_k。我们也可以将上面的表达式简化为：

在实际应用中，在该模型中，第一个比较棘手的问题是如何找到一组包含相同或相似转化率的用户，另一个问题是要收集到在广告a_k和页面p_j这个粒度上的足够的数据。

从另一个角度上讲，在{广告，媒体}这个层级上我们并没有足够的数据支撑。通常一个正常的转化率大概在10^-5左右，所以在获得正常的转化率之前我们必须要有足够的{广告，媒体}这个层级的展现数据。这个数据稀疏问题可以通过在用户、媒体和广告主的数据层次上得到缓解，因为在更高的级别上肯定会有更多的数据。这样我们可以把上述等式修改为：

同样的，和分别表示网页组和广告组，比如我们把同属于一个活动的广告放入把同类的媒体页面放入这样数据的稀疏问题就可以得到解决。这样我们可以将在等级l_u,l_p,l_a上的三组数据分别表示为其中表示的是在第l_u层级上的所用用户组数据，同样地和表示的是在第l_p和l_a层级上的所有页面组和广告组数据。

从上面的分析可知当用户、媒体、广告主数据分别有l_u,l_p,l_a个级别，那么总共就会有l_u*l_p*l_a种不同的组合数量，假设有M个不同的层级组合，这样可以使用上述公式分别计算出这M个组合的转化率预估值。

步骤S3：通过逻辑回归将预估模型进行组合得到一个更准确的预估模型；

所述步骤S3通过逻辑回归将预估模型进行组合得到一个更准确的预估模型的具体实施方式可为：

其中表示s层的转化率与β矩阵进行矩阵相乘之后进行求和。

接下来可以使用该函数来寻求某个β值使用上述函数的值达到最大，然后我们使用sigmod函数将不同的预估模型进行组合，通过该函数可以寻找到最优的参数集：

其中p^s＝[p^s1,…,p^sM]^T，β^T表示矩阵转换，argmax表示求和之后的最大值。

步骤S4：根据获取的投放信息数据通过预估模型进行转化率预估。

根据步骤S1获取的投放信息数据通过步骤S3获得的组合后的预估模型对广告转化率进行预估，得到广告转化率。

实施例二

步骤S1：获取投放信息数据并对数据进行层次分级处理；

步骤S2：建立各个层级及层级组合的转化率预估模型；

其中S_ijk表示发生转化的样本数量，T_ijk表示样本中的展现数量。在实际应用中，在该模型中，第一个比较棘手的问题是如何找到一组包含相同或相似转化率的用户，另一个问题是要收集到在广告a_k和页面p_j这个粒度上的足够的数据。

将M个预估模型视为一个分类模型中的因子(或特征)，并使用最优的线性组合方式尽可能准确地对训练数据进行分类(例如:转化的展现和非转换展现)。然而，在此过程中，我们应该指出的是，实际上由于我们并没有兴趣对展现进行分类，而是在预估它的转化概率时，我们只需要通过逻辑回归所分配的概率分数，我们不需要选择一个分类阈值。

实施例三

步骤S1：获取投放信息数据并对数据进行层次分级处理；

步骤S2：建立各个层级及层级组合的转化率预估模型；

其中表示s层的转化率与β矩阵进行矩阵相乘之后进行求和。

接下来可以使用该函数来寻求某个β值使用上述函数的值达到最大，然后我们使用函数将不同的预估模型进行组合，通过该函数可以寻找到最优的参数集：

步骤S4：校准逻辑回归的输出得分，通过给定的逻辑回归得分来计算真实的转化率。

为了收集训练数据，我们使用了层次化的抽样策略，并且只保留了非转化类的一小部分示例。这个策略导致了在一个训练数据集中，来自不同类的示例的比例与真实数据的比例不匹配。因此，对此类训练数据进行优化的逻辑回归模型的输出得分，并不代表该广告活动的实际规模。所以我们需要校准逻辑回归的输出得分，可以将该问题简化为通过给定的逻辑回归得分来计算真实的CVR。

步骤S5：根据获取的投放信息数据通过预估模型进行转化率预估。

根据步骤S1获取的投放信息数据通过步骤S4获得的组合后的预估模型对广告转化率进行预估，得到广告转化率。

在实际应用中，本发明所述的基于层次等级数据的转化率预估方法具体实现过程如下：

其中S_ijk表示发生转化的样本数量，T_ijk表示样本中的展现数量。在该模型中，第一个比较棘手的问题是如何找到一组包含相同或相似转化率的用户，另一个问题是要收集到在广告a_k和页面p_j这个粒度上的足够的数据。从另一个角度上讲，在{广告，媒体}这个层级上我们并没有足够的数据支撑。通常一个正常的转化率大概在10^-5左右，所以在获得正常的转化率之前我们必须要有足够的{广告，媒体}这个层级的展现数据。这个数据稀疏问题可以通过在用户、媒体和广告主的数据层次上得到缓解，因为在更高的级别上肯定会有更多的数据。这样我们可以把上述等式修改为：

同样的，和分别表示网页组合广告组，比如我们把同属于一个活动的广告放入把同类的媒体页面放入这样数据的稀疏问题就可以得到解决。这样我们可以将在等级l_u,l_p,l_a上的三组数据分别表示为其中表示的是在第l_u层级上的所用用户组数据，同样地和表示的是在第l_p和l_a层级上的所有页面组和广告组数据。

从上面的分析可知当用户、媒体、广告主数据分别有l_u,l_p,l_a个级别，那么总共就会有l_u*l_p*l_a种不同的组合数量，假设有M个不同的层级组合，这样可以使用上述公式分别计算出这M个组合的转化率预估值。但这些单独的预估模型得出的结果往往是不太准确的，并不能用来预估整个数据集。

我们已经计算出不同用户组、媒体组、广告组之间的转化率预估值，但是这些预估值并不能代表一个真实的结果，接下来就是要将这些预估模型进行组合得到一个更准确的预估模型，可以把该问题表示为：

对于每次展现，我们可以将M个模型预估得到的值存入数据库中，另外，在广告竞价中，我们可以使用不同的广告去展现并观察这些展现是否会发生转化。我们使用y_s∈{0,1}来表示第s层的展现是否展现，p^s1,…,p^sM表示相同的展现的最大的转化率，从而可以将训练数据的似然函数表示为：

其中表示s层的转化率与β矩阵进行矩阵相乘之后进行求和。

接下来我们可以使用该函数来寻求某个β值使用上述函数的值达到最大，然后我们使用函数将不同的预估模型进行组合，通过该函数我们可以寻找到最优的参数集：

其中p^s＝[p^s1,…,p^sM]^T，β^T表示矩阵转换计算，β^Tp^s表示矩阵相乘计算。另一种解释这个公式的方法是将M个预估模型视为一个分类模型中的因子(或特征)，并使用最优的线性组合方式尽可能准确地对训练数据进行分类(例如:转化的展现和非转换展现)。然而，我们应该指出的是，实际上由于我们并没有兴趣对展现进行分类，而是在预估它的转化概率时，我们只需要通过逻辑回归所分配的概率分数，我们不需要选择一个分类阈值。为了检验预估的p^s值是否准确，我们可以使用β^*来计算数据转化的可能性，同样我们也可以使用AUC来校验逻辑回归。

虽然我们想使用逻辑回归将所有的预估模型结合起来，但对一些具体的展现有些数据并不能获得，比如当用户id在服务器中找不到或者媒体页面的类型没有标记过，那么当使用这些数据时预估模型就不能正确计算了。在数据挖掘社区中广泛使用的一种简单而有效的方法来处理缺失的数据被称为估算，它试图通过使用特定的值来填补缺失的属性值。

在尝试了不同的策略之后，我们决定使用无条件的中值估算，它是在训练示例中，在所有未丢失属性的中值中，显示一个属性的所有缺失值。估算值是一个很有吸引力的选择，因为它的计算时间非常小(满足运行时约束)，它的性能与其他费时的计算可以看作是同等的。

当使用p¹,…,p^M作为逻辑回归算法的特征时，我们首先会分析数据并对属性进行统计，如果大部分的训练数据都有一个固定的特征缺失，我们就不会对这个缺失的属性值进行估算，因为这会导致预估准确性变得非常低。在我们的建模方法中，如果超过65％的训练数据中有特定的属性缺失，我们将丢弃这些属性。最后，我们丢弃那些方差小于某个阈值的属性，我们把这个阈值设为10^-8。在这些简单的预处理步骤之后，我们将剩下的属性的缺失值进行了估算，并使用生成的数据进行训练模型。

在实际应用中，以下为本发明所述基于层次等级数据的转化率预估方法的实验结果之一：

首先我们选取了5个类型不同的投放量相对比较大的活动，这样训练出来的模型会更为健壮。随后我们将展现数据进行抽样，将一部分作为训练数据，剩下的作为测试数据。我们把非转化数据与转化数据的比例记为IR，由于上一节提到的数据不平衡问题，所以我们将每个活动的IR值的范围固定在[2,4]之间，这就需要对非转化数据进行抽样了。

我们会给出数据的不平衡性对模型结果的影响，在将训练数据进行抽样后我们选取了三个IR值作为对比：{1,3,10}，实验结果如下表：

IR	活动1	活动2	活动3	活动4	活动5
						1	0.744	0.865	0.738	0.66	0.84
3	0.743	0.881	0.741	0.661	0.837
						10	0.740	0.885	0.745	0.646	0.833

从表中可以看书IR值对AUC的影响并不是很明显。

我们也对两种估算方法进行了对比，这两种方法称为中位数估算和贝叶斯最小二乘估算(BLSE)。在对缺失值进行估算后，我们通过逻辑回归将5个活动的数据重新训练得到模型并计算它们的AUC，结果如下表：

估算方法	活动1	活动2	活动3	活动4	活动5
						中位数估算	0.741	0.876	0.742	0.663	0.836
BLSE	0.741	0.875	0.746	0.662	0.834

从结果可看出这两种估算方法并没有太明显的区别，但相对于BLSE来讲中位数估算的处理方式会更简单一些，所以一般来讲会使用该估算方式。

使用基础预估模型时是将数据进行分层后进行训练，这样每个模型预估的CVR都是不同的，这里我们会将逻辑回归与两种不同的基础预估模型进行对比，其中一个基础预估模型使用的数据是用户和活动的组合数据，也就是说，它是为了预估用户u_i的CVR：p_ijk，可以将其表达为：

其中表示的是与用户u_i有相似特征的一组用户，MLE表示使用极大似然估计算法进行计算转化率。另一个基础预估模型观察的数据只有活动a_k，并不是观察所有的广告活动，表达式为：

其中表示的是在活动a_k指定特征下与用户u_i相似的用户组。下表是这三种模型的比较结果：

从表中可以看出LR组合后的模型的AUC都比基础模型的效果要好。

以上就是我们针对转化率预估所做的一些实验，通过模型的使用我们可以将最合适的广告实时地展现给终端用户，但对于大量的离线数据来讲，我们仍可以借助目前成熟的分布式数据处理框架来进行训练，比如hadoop、spark、kafka等工具。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域技术的技术人员在本发明公开的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于层次等级数据的转化率预估方法，其特征在于，所述基于层次等级数据的转化率预估方法包括以下步骤：

获取投放信息数据并对数据进行层次分级处理；

建立各个层级及层级组合的转化率预估模型；

根据获取的投放信息数据通过预估模型进行转化率预估。

2.根据权利要求1所述的基于层次等级数据的转化率预估方法，其特征在于，所述获取投放信息数据并对数据进行层次分级处理包括：获取投放信息数据并划分为用户、发布者和广告主的转化数据层次结构。

3.根据权利要求2所述的基于层次等级数据的转化率预估方法，其特征在于，所述建立各个层级及层级组合的转化率预估模型包括如下步骤：

4.根据权利要求3所述的基于层次等级数据的转化率预估方法，其特征在于，所述转化率表达式取决于中的所有用户是否都在p_j这个页面中看到了广告a_k，从而简化为：

5.根据权利要求4所述的基于层次等级数据的转化率预估方法，其特征在于，基于更高层级数据，所述转化率表达式可修改为：

其中，和分别表示网页组和广告组；表示属于用户组的用户i，表示属于网页组的网页j,表示属于广告组的广告k。由此，在等级l_u,l_p,l_a上的三组数据分别表示为其中，表示的是在第l_u层级上的所有用户组数据，同样地和表示的是在第l_p和l_a层级上的所有页面组和广告组数据。

6.根据权利要求5所述的基于层次等级数据的转化率预估方法，其特征在于，所述通过逻辑回归将预估模型进行组合得到一个更准确的预估模型包括：

其中表示s层的转化率与β矩阵进行矩阵相乘之后进行求和。

接下来可以使用该函数来寻求某个β值使用上述函数的值达到最大，然后使用sigmod函数将不同的预估模型进行组合，通过该函数可以寻找到最优的参数集：

7.根据权利要求6所述的基于层次等级数据的转化率预估方法，其特征在于，对组合获得的预估模型表达式进行解释的方法包括：将M个预估模型视为一个分类模型中的因子或特征，并使用最优的线性组合方式尽可能准确地对训练数据进行分类。

8.根据权利要6所述的基于层次等级数据的转化率预估方法，其特征在于，在使用逻辑回归将所有的预估模型结合起来的过程中，使用无条件的中值估算，在训练示例中，在所有未丢失属性的中值中，显示一个属性的所有缺失值。

9.根据权利要求6所述的基于层次等级数据的转化率预估方法，其特征在于，丢弃那些方差小于某个阈值的属性，将剩下的属性的缺失值进行了估算，并使用生成的数据进行训练模型。

10.根据权利要求1至9之一所述的基于层次等级数据的转化率预估方法，其特征在于，所述基于层次等级数据的转化率预估方法包括：校准逻辑回归的输出得分，通过给定的逻辑回归得分来计算真实的转化率。