CN112163886A

CN112163886A - 一种基于强化学习的实时竞价广告资源分配方法

Info

Publication number: CN112163886A
Application number: CN202011062131.4A
Authority: CN
Inventors: 张程伟; 郑康洁; 靳珊
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-01
Anticipated expiration: 2040-09-30
Also published as: CN112163886B

Abstract

本发明提供了一种基于强化学习的实时竞价广告资源分配方法，包括：对历史广告数据进行统计分析，得到CTR；将得到的CTR进行加噪处理，得出AD Exchange和DSP对CTR的估值；按照不同等级预算限制将实时竞价广告印象分配问题建模为一组多级的马尔科夫决策过程集合，对需要进行折算的变量进行折算；并将折算后的变量输入到对应等级的DQN中；获取每个DQN计算出的累积回报值；对每个DQN得到的累积回报值进行归一化，通过对应的修正函数进行修正；将所有修正后的回报值进行加权，根据得到的累积回报值确定不同动作下的广告资源分配策略，从广告资源分配策略中选择最优的广告分配策略。本发明实现了在保证AD Exchange利益的前提下，让DSP分配的资源更加合理使得收益更高。

Description

一种基于强化学习的实时竞价广告资源分配方法

技术领域

本申请涉及广告业务投放技术领域，特别是涉及基于强化学习的实时竞价广告资源分配方法。

背景技术

实时竞价(Real-Time Bidding，RTB)是展示广告(Display Advertising)的重要机制。RTB允许广告主对每一个广告展现进行评估并出价，其核心是需求方平台(DemandSide Platform，DSP)。DSP代表广告主的利益，为有效实现展示广告的自动优化投放，满足广告投放收益最大化的需求，制定实时高效的竞价策略是DSP最需要解决的问题。为实现这一目标，近年来，众多相关研究工作将竞价策略视为一个静态优化问题，即独立处理每个广告展现的价值，或者为不同的广告流量设置不同的固定价格。但是，由于同一个广告展现通常有数以千计甚至更多的竞争者参与竞价，并且广告主随时可能更改投放计划的设置，这导致竞价环境高度动态且不可预测。因此，此类静态策略在实际应用中难以达到广告主的目标。

为解决上述技术问题，现有技术中采用将竞价决策过程视为强化学习问题的方式，利用马尔科夫决策过程MDP对RTB进行建模，通过值迭代的方式来找到最佳的值函数，然后通过找到的值函数，来获得最佳的出价策略，最终用价高者得方式对所有出价进行选择，以此来提高RTB的效率和整体效果。

上述方法一定程度上缓解了预算过度消耗的问题，但是只能够保证DSP的局部利益。然而在实际情况中，广告印象的竞拍并不是以一次性交易进行的。广告交易平台(ADExchange)希望的是更多DSP可以一直在平台上交易，这样才能给AD Exchange和DSP带来长久的利益。因此AD Exchange更希望的是在保证自己利益的前提下，帮助DSP匹配到更多合理的广告印象资源。这也就使得价高者得方式不适合促进AD Exchange和DSP共同利益的发展。

发明内容

有鉴于此，本发明提供了一种基于强化学习的实时竞价广告资源分配方法，以实现在保证AD Exchange利益的前提下，让DSP分配的资源更加合理使得收益更高。

本发明提供了以下技术方案：

一种基于强化学习的实时竞价广告资源分配方法，包括：

步骤1：对历史广告数据进行统计分析，得到广告点击率；

步骤2：将得到的点击率进行加噪处理，得出广告交易平台和所述需求方平台对点击率的估值；

步骤3：按照不同等级预算限制将实时竞价广告印象分配问题建模为一组多级的马尔科夫决策过程集合，每个分级中，在预算约束下，需求方平台根据所述点击率的估值进行出价；每个分级中的广告状态维度一致，对需要进行折算的变量进行折算；并将折算后的变量输入到对应等级的深度Q网络中；

步骤4：获取每个深度Q网络计算出的累积回报值；

步骤5：对每个深度Q网络得到的累积回报值进行归一化，使得尺度相同，通过对应的修正函数进行修正；

步骤6：将所有修正后的回报值进行加权，根据得到的累积回报值确定不同动作下的广告资源分配策略，从所述广告资源分配策略中选择最优的广告分配策略；所述动作为在多个需求方平台的出价中选择一个所述需求方平台作为获胜者。

进一步地，重复上述步骤1～6，直到广告拍卖终止态。

进一步地，需要进行折算的变量至少包括：剩余预算与剩余步长；

所述剩余预算按照如下公式折算：

所述剩余步长按照如下公式折算：

其中，l为当前层数，t_l为第l层对剩余步长t的折算，B_l,t为第l层对剩余预算B的折算，β^l为第l层的折算比例，step为步。

进一步地，所有修正后的回报值加权后的估计值Q(s,a)为：

其中，

为第l层修正后的回报值，

l为当前层数，ω_l为第l层的修正因子，L为模型的总层数；φ_l(s)为状态观测值，s包括：1)t：每轮竞拍中剩余的步长；2)(B₁,…,B_J)：每个需求方平台的剩余预算；3)(b₁,…,b_J)：每个需求方平台对广告印象的出价；4)i：第i种用户特征；5)

将用户特征i展示给每个需求方平台时，广告印象的性价比；6)

将用户特征i展示给每个需求方平台时，广告交易平台对点击率的估计；a为智能体从多个需求方平台选择出的竞拍获胜的需求方平台，a′为下一个获胜的需求方平台。

进一步地，各级DQN的权重按照如下方式确定：

其中，ω₀为超参数，0＜ω₀＜1。

进一步地，所述对历史广告数据进行统计分析，得到广告点击率包括：通过推荐系统的方法对历史广告数据进行统计分析，得到广告点击率。

本发明的优点和积极效果：首先，本发明基于深度强化学习将RTB广告印象分配问题建模为一组多级的MDP集合。在预算约束下，DSP会根据估计的CTR进行出价；智能体则学习使得总体累积回报最大的分配策略来决定获胜DSP。这样可以在保证AD Exchange利益的前提下，让DSP分配的资源更加合理使得收益更高。其次，本发明基于DQN提出了Multi-Level Budget Constraint DQN(多级预算限制DQN，MLBC-DQN)MLBC-DQN框架。该框架可以根据序列和预算等因素分为不同级别预算的短序列环境，在短序列环境中智能体能够快速探索到决策。最后，本发明通过使用多个不同DQN得到的Q估计值加权后的结果来指导原始长序列环境做出探索，从而可以加快拟合速度。该框架可以提升在大序列拍卖环境下算法的拟合速度，并使得预算不会被提前耗光。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于强化学习的实时竞价广告资源分配策略的方法的流程图；

图2为本发明实施例中多级预算限制DQN框架的结构示意图。

具体实施方式

相关术语：

RTB(RealTime Bidding)实时竞价，是一种利用第三方技术在数以百万计的网站上针对每一个用户展示行为进行评估以及出价的竞价技术。

DSP(Demand Side Platform)需求方平台，是一个系统，也是一种在线广告平台。它服务于广告主，帮助广告主在互联网或者移动互联网上进行广告投放，DSP可以使广告主更简单便捷地遵循统一的竞价和反馈方式，对位于多家广告交易平台的在线广告,以合理的价格实时购买高质量的广告库存。

Ad Exchange是互联网广告交易平台，Ad Exchange平台的竞价机制也是竞价获得，如果竞价一样的话，先到先得，即RTB模式。

CTR(Click-Through-Rate)，指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击率，即该广告的实际点击次数(严格的来说，可以是到达目标页面的数量)除以广告的展现量(Show content)。

MDP(Markov Decision Process)马尔科夫决策过程，是基于马尔科夫论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性的动态规划相结合的产物，故又称马尔科夫型随机动态规划，属于运筹学中数学规划的一个分支，提供了一个用于对决策情景建模的数学框架。

DQN(Deep Q-learning network)深度Q网络，是强度学习算法之一，通过神经网络近似求得值函数。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明将RTB广告印象分配问题依照不同等级预算限制建模为一组多级的马尔科夫决策过程集合，并使用深度强化学习算法为各MDP问题自动学习广告分配策略。这里的预算限制指的是所有DSP的总预算之和，当单个DSP没有预算了这个DSP就不能参加拍卖，当所有人的预算都花光了，则拍卖就结束了。广告分配策略指的是智能体做出来的决策，与人为无关。具体地，本发明提出Multi-Level Budget Constraint DQN(多级预算限制DQN，MLBC-DQN)框架，该框架将长序列决策环境分为多个不同级别预算的短序列环境，在不同级别预算的短序列环境中分别使用DQN来训练动作的估计回报，然后使用不同级别Q估计值加权得到的结果指导算法最终选择与环境交互的动作。这里的动作指的是在多个DSP的出价中选择一个DSP作为获胜者；在短序列环境中智能体能够快速学习到有效的策略，以此指导大序列环境的学习，从而克服预算过早耗光，同时也可缓解序列过长导致算法难以收敛。

参见图1，其示出了本发明实施例中基于强化学习的实时竞价广告资源分配方法的流程图，包括以下步骤：

步骤1：对历史广告数据进行统计分析得到CTR值。

在具体实施时，可以通过推荐系统的方法对历史广告数据进行统计分析，得到CTR值。

步骤2：将得到的CTR值进行加噪处理，得出AD Exchange对CTR的估值和DSP对CTR的估值。

步骤3：按照不同等级预算限制将实时竞价广告印象分配问题建模为一组多级的马尔科夫决策过程集合，每个分级中，在预算约束下，需求方平台根据点击率的估值进行出价；每个分级中的广告状态维度是一致，对需要折算的变量进行折算，并将折算后的变量输入到对应的等级DQN中。

本发明实施例中，将原始长序列环境分为短序列环境，每个短序列环境都分别使用DQN进行训练。

其中，定义模型的总层数为L、当前层数为l、每层对预算B和步长t折扣的比例为β。其中根据分级的需求，env_l环境需要对状态观测值φ_l(s)中的剩余预算与剩余步长进行折算。这两个变量的折算可以根据公式1和公式2进行计算，得到的是当前对应的env_l环境中剩余的步长t_l和剩余的预算B_l。

步骤4：获取每个DQN计算出的累积回报值。

每个DQN都会通过两层隐藏层进行提取计算累积回报值并输出。累积回报值又叫奖励，奖励定义为Agent预期的收益

即Agent将用户特征i展示给第j个DSP所获得的预期CTR值。模型的优化目标是使得总累积的CTR值最大化，即

最大化。

步骤5：对每个DQN得到的累积回报值进行归一化，使得尺度相同，再通过对应的修正函数进行修正。

步骤6：将所有修正后的回报值进行加权，MDP环境会根据得到的累积回报值得到不同动作下的广告资源分配策略，从该广告资源分配策略中选择最优的策略，此时一个广告拍卖结束。

本实施例中的动作具体为在9个DSP的出价中选择一个DSP作为获胜者。

本实施例中定义Q(s,a)为多个不同层DQN网络加权后的估计值，具体定义如下：

其中，

为第l层修正后的回报值，

将用户特征i展示给每个需求方平台时，广告交易平台对点击率的估计。action动作空间定义为9。由于模型是为了分配广告印象资源，因此动作a_t定义为智能体在step为t时选择使得累积回报最大化的DSP作为竞拍的获胜者。即a为智能体从多个需求方平台选择出的竞拍获胜的需求方平台，a′为下一个获胜的需求方平台。

根据公式5设置各级DQN的权重，目标是逐渐减小env_l对上一层环境指导的影响。其中ω₀为超参数，0＜ω₀＜1。这样ω_l的值会逐渐趋近于0，此时符合预期env_l对上一层环境影响变小的需求。

如图2所示，其示出了本发明实施例中多级预算限制DQN框架的结构示意图。本发明实施例中根据公式(3)将各个层得到的Q估计加权后将得到的结果提交给原始环境进行指导。考虑到env₀得到的决策依旧是在env₀下的局部最优，env₀的策略不能作为决定性因素，需要进行修正后才能指导env₀，因此本发明实施例中定义修正因子为ω。通过ω来对得到的Q估计进行修正。由于每级的DQN都会得到对应动作的Q估计值，但是这些对应动作的Q估计值在不同级别DQN中的尺度是不同的，因此本发明实施例中将对应动作在不同级别DQN中得到的Q估计值进行归一化操作，使得它们的尺度相同。然后再对归一化后的Q估计值进行加权，得到不同动作下的策略，从这些动作集中选择最优的策略来指导原始长序列环境。

步骤7、继续重复上述步骤1～6，直到广告拍卖终止态。

本发明实施例中，首先，基于深度强化学习将RTB广告印象分配问题建模为一组多级的MDP集合。在预算约束下，DSP会根据估计的CTR进行出价；智能体则学习使得总体累积回报最大的分配策略来决定获胜DSP。这样可以在保证AD Exchange利益的前提下，让DSP分配的资源更加合理使得收益更高。其次，基于DQN提出了Multi-Level Budget ConstraintDQN(多级预算限制DQN，MLBC-DQN)MLBC-DQN框架。该框架可以根据序列和预算等因素分为不同级别预算的短序列环境，在短序列环境中智能体能够快速探索到决策。最后，通过使用多个不同DQN得到的Q估计值加权后的结果来指导原始长序列环境做出探索，从而可以加快拟合速度。该框架可以提升在大序列拍卖环境下算法的拟合速度，并使得预算不会被提前耗光。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。