CN112270571B

CN112270571B - 一种用于冷启动广告点击率预估模型的元模型训练方法

Info

Publication number: CN112270571B
Application number: CN202011209043.2A
Authority: CN
Inventors: 许倩倩; 曹天伟; 杨智勇; 黄庆明
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-06-27
Anticipated expiration: 2040-11-03
Also published as: CN112270571A

Abstract

本发明提供一种用于冷启动广告点击率预估模型的元模型训练方法，包括：S1、构建初始元模型并初始化元模型的参数；S2、获取未被点击过的未知广告组成的数据集，其中，每一个未知广告对应一个任务；S3、使用步骤S2中的数据集对元模型进行多轮训练直至收敛。本发明将每个已知任务的权重作为可学习的参数，并将加权后的任务分布和原始经验分布之间的卡方散度作为约束条件，形成了一种对于任务难度自适应的元学习损失函数。一方面，通过在训练过程中动态平衡各个任务的权重，从原本被忽略的难任务中挖掘到更多的有效知识，从而提升了模型的整体性能。另一方面，通过将任务权重和模型其他参数的学习问题建模为最大‑最小优化问题，利用GDmax算法对其进行了有效的求解，可以快速的达到收敛。

Description

一种用于冷启动广告点击率预估模型的元模型训练方法

技术领域

本发明涉及推荐系统领域，具体来说，涉及推荐系统领域中的冷启动广告点击率预估领域，更具体地说，涉及针对冷启动广告的表示学习以及基于深度神经网络的元学习技术，即一种用于冷启动广告点击率预估模型的元模型训练方法。

背景技术

广告点击率预估是推荐系统领域的重要研究课题之一，为了方便根据用户兴趣对大量的广告进行个性化排序，从而将用户感兴趣的广告呈现给用户，广告点击率预估模型需要从用户对各个广告的点击行为中学习广告的特征表示，然而由于新的广告不断产生，很多广告缺乏和用户的交互信息，因此，广告点击率预估技术需解决如何为这一类缺少交互信息的广告学习高效的特征表示，即解决冷启动。

目前，大多数广告点击率预估模型，如FM、DeepFM、Wide&Deep等，不对冷启动广告做任何处理，以至其特征表示是完全随机的，从而对其进行点击率预估时难以达到较好的性能。为了改进冷启动广告的特征表示，现有方法通常通过元学习算法，训练可通过广告内容生成其特征表示的元网络，用于提升冷启动场景下的点击率预估性能，其中，应用的元学习的思路一般分为以下两种：一种是将每个用户作为单独的任务，基于各个用户的感兴趣的广告序列生成特征表示，与冷启动广告的内容信息进行匹配。另一种则将每个广告作为任务，通过模型无关元学习算法学出能够快速适应各个任务的通用特征表示，并将此作为冷启动广告的初始特征表示，使其表征能力能够通过在线学习快速提升。这些方法通过元学习提取多个任务的共享特征作为冷启动广告的初始表示，但是在学习过程中赋予每个任务完全相等的权重，忽略了任务难度的多样性，从而使得特定广告始终难以正确投放，影响广告主的利益。从另一个角度来看，任务的权重也可以被视为其被采样到的概率，若简单地假设所有任务服从均匀分布，那么当实际应用中的分布稍微偏离，模型的性能很有可能大幅的下降。因此，用于解决冷启问题的元学习算法需考虑如何在训练过程中动态地调整任务的权重，从而更好地适应任务难度的多样性以及对其分布的对抗性扰动。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种用于冷启动广告点击率预估模型的元模型训练方法，以训练用于基模型的原模型，使得其在冷启动广告点击率预估中能够更好的适应任务难度的多样性以及对其分布的对抗性扰动。

根据本发明的第一方面，本发明提供一种用于冷启动广告点击率预估模型的元模型训练方法，包括如下步骤：S1、构建初始元模型并初始化元模型的参数；S2、获取未被点击过的未知广告组成的数据集，其中，每一个未知广告对应一个任务；S3、使用步骤S2中的数据集对元模型进行多轮训练直至收敛，其中，每轮训练包括：S31、保持当前元模型参数不变，计算所有任务对应的任务权重，并基于该任务权重计算元模型损失函数的梯度；S32、对于经步骤S31计算的大于预设梯度阈值的梯度对应的任务权重，采用梯度上升法，基于步骤S31计算的梯度更新一次任务权重；S33、采用单纯投影方法将任务权重投影到约束空间以对任务权重进行调整；S34、保持当前任务权重不变，基于元模型参数计算元模型损失函数的梯度；S35、对于经步骤S34计算的大于预设梯度阈值的梯度对应的元模型参数，采用梯度下降方法，基于步骤S34计算的梯度更新一次元模型参数。

优选的，所述元模型包括多个由池化层和全连接层组成的单元。

所述步骤S3中，满足如下评价标准之一即为训练至收敛：标准一、训练100轮；标准二、元模型的损失小于或等于0.01。

预设梯度阈值为0.001。

在本发明的一些实施例中，所述元模型的损失函数为：

其中，L(p,γ)是元模型的损失函数，γ是元模型的参数，p数据集中所有任务权重组成的向量，p_i是第i个任务权重对应的向量，P是约束空间代表对于任务权重p所施加的约束，T代表数据集中任务的总数，i∈{1,2,…,T}是每个任务的标识，

代表第i个任务上的元嵌入特征损失。

优选的，所述约束空间对任务权重的约束为：

其中，ρ是控制p和

之间距离的系数且ρ>0。

根据本发明的第二方面，提供一种冷启动广告点击率预估模型，包括基模型，所述预估模型还包括本发明第一方面所述方法训练的元模型，其中，所述元模型包括：池化层，用于将广告属性相关的嵌入特征求平均以融合这些属性的语义信息；全连接层，用于将广告属性空间所包含的信息变换到广告ID空间以得到广告的元嵌入特征。

根据本发明的第三方面，提供一种冷启动广告点击率预估方法，包括如下步骤：Y1、获取冷启动对应的广告的属性特征；Y2、采用如本发明第一方面所述方法训练的元模型通过步骤Y1获取的广告属性特征获取广告的元嵌入特征，并将该元嵌入特征存入基模型的特征表；Y3、基于步骤Y2获取的元嵌入特征对广告进行预测获得预测结果。

与现有技术相比，本发明的优点在于：在延续以往算法将每个广告视为元学习任务的基础上，本发明将每个已知任务的权重作为可学习的参数，并将加权后的任务分布和原始经验分布之间的卡方散度作为约束条件，形成了一种对于任务难度自适应的元学习损失函数。一方面，通过在训练过程中动态平衡各个任务的权重，从原本被忽略的难任务中挖掘到更多的有效知识，从而提升了模型的整体性能。另一方面，通过将任务权重和模型其他参数的学习问题建模为最大-最小优化问题，利用GDmax算法对其进行了有效的求解，可以快速的达到收敛。通过引入元模型，使得预估模型在面对冷启动时，可以更好地适应任务难度的多样性以及对其分布的对抗性扰动。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的预估模型工作场景及数据流向示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为了解决冷启问题的元学习算法需考虑如何在训练过程中动态地调整任务的权重，从而更好地适应任务难度的多样性以及对其分布的对抗性扰动，本发明冷启动广告点击率预估的元学习算法中的任务权重学习问题，提出对不同任务动态加权的元学习策略既增加可提取冷启动广告特征表示的元模型，其通过在Meta-embedding损失函数的基础上将任务的权重作为可训练的参数，形成自适应的损失函数，从而捕捉任务难度的多样性，使相对困难的任务获得更大的权重，从而避免了其损失在训练中无法降低的问题，提升模型在难任务上的表现；同时，为了正确的优化自适应损失函数，提出了最大-最小优化算法以使元模型训练过程快速达到收敛。

本发明通过在传统的冷启动广告点击率预估模型的基础上增加元模型，即在以往元学习损失函数的基础上，本发明将任务的权重作为可训练的参数，形成自适应损失函数，对任务难度的多样性进行有效建模。一般的点击率预估模型都依靠Embedding机制来学习原始特征(如：广告ID、用户ID、类别ID等)的表征向量，因此也将这一特征表示称为Embedding(也叫嵌入特征，在后续的描述不做区分),一般的Embedding机制可以看作是一个可学习的空间映射函数，其作用是将一个已知的离散值映射为一个实数向量，从而为该离散值嵌入更加丰富的语义表示。而针对冷启动广告ID的Embedding机制其作用是为一个未知的离散值生成一个可用的特征表示,称为Meta-embedding(也叫元嵌入特征，在后续的描述不做区分)。在本发明中，要为冷启动广告生成Embedding，需要借助一个可学习元模型，其作为一个辅助功能模块和原有的预估模型共同用于冷启动广告点击率预估。

通过引入本发明训练的元模型，预估模型对广告点击率的预估会涉及三种情况，如图1所示，箭头表示预测过程中的数据流向，其中，箭头a1-a2表示的路径代表广告未知的场景，即冷启动场景，此时基模型的查询表中不存在相应广告的特征表示，需要借助元模型来使用广告属性特征生产广告ID的元嵌入特征，将该元嵌入特征用于后续的预测并将其作为广告的嵌入特征存入基模型的Embedding查询表(也叫嵌入特征查询表)；箭头b1-b2-b3表示的路径代表广告已知的场景，可以通过广告ID在Embedding查询表中直接查询到广告的嵌入特征，然后进行预测；其他相关特征指示的路径是不依据冷启动与否而变化的一般的预测。需要说明的是，此处的基模型可以是任意的点击率预估模型，而元模型仅仅是作为应对冷启动场景的子模块而应用于已经训练好的基模型之上。基于此，本发明主要解决的问题可以归纳为：给定一个预训练好的基模型，如何训练能够为未知广告生成较好的初始表征的元模型，元模型的好坏直接影响预估效果。

根据本发明的一个实施例，本发明提供一种用于冷启动广告点击率预估模型的元模型训练方法，包括步骤S1、S2、S3、S4、S5，下面详细说明每个步骤：

在步骤S1中，构建初始元模型并初始化元模型的参数，其中，所述元模型包括池化层和全连接层，且可根据实际场景配置多个由池化层和全连接层组成的单元。如图1中所示的示例，元模型是一个两层的神经网络，其包括一个池化层和一个全连接层，第一层是池化层，其作用是将广告属性相关的Embedding求平均，从而融合这些属性的语义信息；第二层是以tanh为激活函数的全连接层，将第一层的输出乘以矩阵γ(γ是元模型的参数)，作用是将广告属性空间所包含的信息，变换到广告ID的空间；再将所得的向量经过tanh进行放缩，使其每一维度的值都在(-1，1)的区间内，得到广告的Meta-embedding。

在步骤S2中，获取未被点击过的未知广告组成的数据集，其中，每一个未知广告对应一个任务。具体来说，为解决冷启动问题，本发明将数据集中的每个未知广告视为一个任务，则一般的点击率预估问题可转化成一种多任务学习形式。

在步骤S3中，使用步骤S2中的数据集对元模型进行多轮训练直至收敛，通过步骤S2的数据集特征可知，为冷启动广告训练点击率预估模型可以视为通过大量已知的任务学习新任务的元嵌入特征表示，即元学习问题。为了学习这一表示，首先使用所有已知任务数据学习一个基模型，其可以是任意一种基于Embedding机制的点击率预估模型，如FM、DeepFM、Wide&Deep等，基模型中包含有Embedding查询表，任意已知广告可通过广告ID在Embedding查询表中找到其对应的嵌入特征以进行预测。在此基础上，学习以γ为参数的元模型h_γ，其可以通过每一个新任务i的属性特征a_i生成其特征表示：

φ_i＝h_γ(a_i)。

之后，将φ_i作为广告标识特征的Embedding应用于已经训练好的基模型。相比与完全随机的初始值，通过元模型h_γ所生成的φ_i能够更好地进行冷启动场景下的广告点击率预估。除了γ之外，本发明还将引入一个描述数据分布的参数p来辅助元模型的学习。

根据本发明的一个实施例，为了学习h_γ，提出了自适应损失函数：

其中T代表数据集合中任务(广告)的总数；i∈{1,2,…,T}是每个任务的标识；可学习参数p是所有任务权重组成的向量，也可视为任务的分布，p_i是第i个任务权重对应的向量；

代表第i个任务上的Meta-embedding损失，即对新生成的表征进行零次和一次梯度下降所产生的两个交叉熵损失的和，其用于生成Meta-embedding的元模型以γ作为参数；P是约束空间，代表对于任务权重p所施加的约束：

其中p≥0,<p,1>＝1将任务的权重取值限定在概率空间内，使其能够在感知任务难度的同时被视为概率分布；

这一约束从任务权重的角度可表示各个任务权重的平衡，而从任务分布的角度可以视为所学任务分布p和均匀分布之间的卡方散度,其中ρ>0是控制p和/>

之间距离的系数。

将训练过程中每个任务i的难度通过其损失

进行刻画，即任务损失函数值越大代表其任务难度越大、越难训练。基于此，使用上述的损失函数在学习元模型参数γ的同时，可以通过上述公式中的最大化约束/>

保证任务权重向量p和所有任务损失向量/>

的内积最大，即任务权重和任务难度的一致性最强。同时，通过p∈P的约束，保证各个任务之间的平衡性，使每个任务的权重差别不至于过大，避免完全倒向难任务而忽略简单任务。和简单地为每个任务设置相同的权重相比，通过这种加权方式，参数p能够自适应地感知任务的难度，通过任务难度的大小在训练时动态调整各个任务权重，因此能够更充分利用所有任务信息来为冷启动任务学习公共的元表示。

为了求解上述的最小-最大损失函数，根据本发明的一个实施例，本发明设计了其优化训练方法，即在每一轮训练过程中，首先固定参数γ，通过投影梯度上升算法求解最大化问题

得到最优的权重p，之后，将刚刚求得的权重p固定，通过普通的梯度下降算法求解参数γ，如此重复多轮训练直到收敛，其中，每轮训练过程如下：

S31、保持当前元模型参数γ不变，计算所有任务对应的任务权重p，并基于该任务权重计算元模型损失函数L(p,γ)的梯度；若梯度足够小则转到步骤S33，否则进行下一步；

S32、对于经步骤S31计算的大于预设梯度阈值的梯度对应的任务权重，采用梯度上升法，基于步骤S31计算的梯度更新一次任务权重p；

S33、采用任意的单纯投影方法将任务权重p投影到约束空间P以对任务权重进行调整；

S34、保持当前任务权重p不变，基于元模型参数γ计算元模型损失函数的梯度；若梯度足够小则意味着学到了足够好的元模型，训练终止，否则转到下一步；

S35、对于经步骤S34计算的大于预设梯度阈值的梯度对应的元模型参数，采用梯度下降方法，基于步骤S34计算的梯度更新一次元模型参数γ，然后转到步骤S31。

需要说明的是，训练过程中判定梯度是否足够小，是看梯度是否趋近于0，优选的设置梯度阈值为0.001。

根据本发明的一个实施例，在训练过程中，满足如下评价标准之一即为训练至收敛：标准一、训练100轮；标准二、元模型的损失小于或等于0.01。

通过上述过程，可以获得一个训练好的元模型，其可配合使用在任意基模型上，在面对冷启动广告点击率预估时，用于提取未知广告的特征表示，提高基模型的性能。

在冷启动广告的点击率预估问题中，传统的元学习算法忽略了各个任务难度存在多样性的问题，欠缺对难任务的重视。在延续以往算法将每个广告视为元学习任务的基础上，本发明将每个已知任务的权重作为可学习的参数，并将加权后的任务分布和原始经验分布之间的卡方散度作为约束条件，形成了一种对于任务难度自适应的元学习损失函数。一方面，通过在训练过程中动态平衡各个任务的权重，从原本被忽略的难任务中挖掘到更多的有效知识，从而提升了模型的整体性能。另一方面，通过将任务权重和模型其他参数的学习问题建模为最大-最小优化问题，利用GDmax算法对其进行了有效的求解，可以快速的达到收敛。通过引入元模型，使得预估模型在面对冷启动时，可以更好地适应任务难度的多样性以及对其分布的对抗性扰动。

为了说明本发明的元模型在预估模型中的效果，下面通过实验进行测试验证：

元模型的效果测试需要在两种场景下进行：纯冷启动场景和预热场景。纯冷启动场景段中，所有广告都没有任务交互记录，要求元模型为这些未知广告生成有效的表征。预热场景中，每条广告只有及少量的交互记录，要求原预估模型所生成的表征能够利用这些记录继续优化，优化后的性能提升比随机的初始表征更明显。

本发明以在MovieLens-1M数据集上进行测试为例，使用AUC(Area under theCurve of ROC)的提升百分比，基模型选用FM、Wide&Deep、DeepFM三种，其中，有Meta表示使用了元模型，在测试过程中，使用元模型之前和之后的性能对比如表1所示：

表1

模型/性能	纯冷启动性能	预热后性能
			FM	0.68243	0.69698
FM+Meta	0.69782	0.70950
			Wide&deep	0.68952	0.69974
Wide&deep+Meta	0.69766	0.70564
			DeepFM	0.65490	0.66150
DeepFM+Meta	0.67931	0.68350

从表1可以看出，无论在哪种场景下，使用了元模型之后的基模型在冷启动广告点击率预估上的性能提升都很明显，明显的性能提升，可以使得预估模型能够更好的适应任务难度的多样性以及对其分布的对抗性扰动。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于冷启动广告点击率预估模型的元模型训练方法，其特征在于，包括如下步骤：

S1、构建初始元模型并初始化元模型的参数；

S2、获取未被点击过的未知广告组成的数据集，其中，每一个未知广告对应一个任务；

S3、使用步骤S2中的数据集对元模型进行多轮训练直至收敛，其中，每轮训练包括：

S31、保持当前元模型参数不变，计算所有任务对应的任务权重，并基于该任务权重计算元模型损失函数的梯度；其中，所述元模型的损失函数为：

其中，L(p,γ)是元模型的损失函数，γ是元模型的参数，p数据集中所有任务权重组成的向量，p_i是第i个任务权重对应的向量，P是约束空间代表对于任务权重p所施加的约束，T代表数据集中任务的总数，

i∈{1,2,…,T}是每个任务的标识，

代表第i个任务上的元嵌入特征损失；所述约束空间对任务权重的约束为：

其中，ρ是控制p和

之间距离的系数且ρ>0；

S32、对于经步骤S31计算的大于预设梯度阈值的梯度对应的任务权重，采用梯度上升法，基于步骤S31计算的梯度更新一次任务权重；

S33、采用单纯投影方法将任务权重投影到约束空间以对任务权重进行调整；

S34、保持当前任务权重不变，基于元模型参数计算元模型损失函数的梯度；

S35、对于经步骤S34计算的大于预设梯度阈值的梯度对应的元模型参数，采用梯度下降方法，基于步骤S34计算的梯度更新一次元模型参数。

2.根据权利要求1所述的一种用于冷启动广告点击率预估模型的元模型训练方法，其特征在于，

所述元模型包括多个由池化层和全连接层组成的单元。

3.根据权利要求1所述的一种用于冷启动广告点击率预估模型的元模型训练方法，其特征在于，

所述步骤S3中，满足如下评价标准之一即为训练至收敛：

标准一、训练100轮；

标准二、元模型的损失小于或等于0.01。

4.根据权利要求1所述的一种用于冷启动广告点击率预估模型的元模型训练方法，其特征在于，

预设梯度阈值为0.001。

5.一种冷启动广告点击率预估模型，包括基模型，其特征在于，所述预估模型还包括如权利要求1至4任一所述方法训练的元模型，其中，所述元模型包括：

池化层，用于将广告属性相关的嵌入特征求平均以融合这些属性的语义信息；

全连接层，用于将广告属性空间所包含的信息变换到广告ID空间以得到广告的元嵌入特征。

6.一种冷启动广告点击率预估方法，其特征在于，包括如下步骤：

Y1、获取冷启动对应的广告的属性特征；

Y2、采用如权利要求1至4任一所述方法训练的元模型通过步骤Y1获取的广告属性特征获取广告的元嵌入特征，并将该元嵌入特征存入基模型的特征表；

Y3、基于步骤Y2获取的元嵌入特征对广告进行预测获得预测结果。

7.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至4任一所述方法的步骤。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至4中任一项所述方法的步骤。