CN113327131A

CN113327131A - 基于三支决策理论进行特征交互选择的点击率预估模型

Info

Publication number: CN113327131A
Application number: CN202110622654.8A
Authority: CN
Inventors: 谢珺; 赵旭栋; 续欣莹; 李小飞
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-08-31

Abstract

基于三支决策理论进行特征交互选择的点击率预估模型，计算广告和推荐系统中的点击率预估任务，它包括：1）利用One‑hot编码和Embedding技术处理输入分类特征；2）利用因子分解机及其衍生模型对原始数据的特征进行交互；3）利用三支决策理论结合二分类Sigmoid函数提出的三支决策门对交互特征进行选择；4）将经过三支决策门选择后的交互特征与数据原有特征通过逻辑斯蒂回归函数输出最后预测的点击率。本发明能够减少过多的冗余交互特征给原有模型带来的噪声信息，在一定程度上强化重要特征交互，保留一般重要交互特征，剔除冗余的交互特征。本发明提升因子分解机及其衍生模型的表现，同时降低了模型的训练时间。

Description

基于三支决策理论进行特征交互选择的点击率预估模型

技术领域

本发明属于计算广告及推荐系统领域，具体涉及点击率预估中交互特征，特别涉及一种基于三支决策理论进行特征交互选择的点击率预估模型。

背景技术

在推荐系统和在线广告中，确定某一用户对指定商品或者广告的点击概率是一项重要的任务，它决定了推荐系统的准确性和在线广告收入。在推荐系统的Top-N推荐中，用户对某个商品的点击率是一个重要的排序依据，这个点击概率决定商品在推荐列表中的位置，系统往往偏向把点击率较大的商品放置在推荐列表中的前列，以提升个性化推荐的准确性。在线广告中，广告曝光千次的点击率也是广告提供者衡量某个广告位的一项重要指标，广告商往往会根据千次点击率对平台的广告位置进行估值，拥有较高的曝光千次点击率的广告位往往能获得更多的利润。因此，点击率(Click-Through Rate，CTR)预估任务在推荐系统和在线广告中扮演着至关重要的角色。

在现有的CTR预估模型与算法中，为了提升模型的准确性，往往会利用向量积来学习异构信息，这些异构信息又叫特征交互或者组合特征，它们是在原有特征的基础上产生的。因式分解机及其衍生模型就是其中的主流模型，但是并非所有的特征交互都是有用的，学习所有的特征交互可能会引入毫不相关的冗余信息，这些信息会给模型带来噪声，给模型带来冗余负担，增加了训练模型的复杂度。这些冗余的交互特征会极大的影响模型的表现和效率，也给模型的线下训练和线上部署带来了极大的困难。

因此，如果能够基于现有的因子分解机及其衍生的点击率预估模型结构，加入预先识别有用的特征交互的模块，那么就可以移除无用的噪声交互特征专注的学习有用的交互特征，在提升模型表现的同时降低模型的训练复杂度，对在线广告平台和电商平台有着重要的应用价值。

发明内容

为解决上述问题，本发明提供一种基于三支决策理论进行特征交互选择的点击率预估模型，既能够实现更加精准的点击率预估，又能在模型复杂度上满足线上和线下的需求，为在线广告平台和电商平台提供了一种较好的点击率预估模型。

本发明采的技术方案主要包括以下几个步骤：

S1、数据预处理：原始数据存在隐式反馈与显式反馈两种情况。对于显式反馈直接用点击情况进行标注；对于隐式反馈，采用阈值法进行标注，即反馈分数超过某一阈值即标注为点击，阈值根据不同数据的评分范围来划分。最后将分类特征利用One-hot编码和Embedding转换为向量；

S2、交互特征：即采用因子分解机及其衍生模型的方式对向量化的分类特征进行交互，得到交互特征；

S3、选择交互特征：即利用三支决策理论结合Sigmoid函数提出的三支决策门函数对交互特征进行选择，剔除冗余的交互特征，保留重要的交互特征；

S4、输出结果：利用选择后的交互特征和原始特征，交互特征是经过三支决策门选择后的特征，最后经过逻辑斯蒂回归函数得到最后的点击概率；

特别的，图2给出了三支决策门选择交互特征的一般过程，所述的步骤为：

步骤1：确定三支决策门的超参数α和β。

步骤2：利用阈值α和β将二分类Sigmoid函数划分为正域POS(X),负域NEG(X)以及边界域BND(X)。Sigmoid(x)＞α时，x∈POS(X)；当β<Sigmoid(x)≤α时，x∈BND(X)；当Sigmoid(x)≤β时，x∈NEG(X)。

步骤3：对不同域的结果进行划分，当x∈POS(X)时，三支决策门函数

当x∈BND(X)时，

当x∈NEG(X)，

与现有因子分解机及其衍生模型相比，本发明给现有产生特征交互的因子分解机及其衍生的模型加入了特征交互选择机制，提升了原有模型的效率，削减了冗余特征交互带来的噪声；其次，本发明的交互选择机制基于三支决策思想结合Sigmoid函数提出了三支决策门，三支决策门拥有更加合理的选择机制，能够在筛选特征交互的同时强化重要的特征交互信息，剔除不必要的特征交互。为了比较本发明与经典的因子分解机及其衍生模型的优点，在相同的两个数据集上进行了实验，选取AUC和Logloss进行对比，实验结果如下表1所示。

本次实验主要选择了因子分解机FM及其衍生模型FFM，基于Movielens和Website数据集进行了实验，其中|Δ|代表了绝对值差，从上表可以看出本文方法在Logloss和AUC两个评价指标商均优于原有模型。

附图说明

图1为基于三支决策理论进行特征交互选择的点击率预估模型流程图。

图2为三支决策门选择交互特征的过程。

具体实施方式

下面结合本发明的基本结构，对本发明技术方案进行具体、详尽地描述，以使本发明的技术特征能够更容易被本领域的技术人员所理解。需要说明的是，此处所列举的具体实施方式仅仅是对本发明的示例性说明，而不是对本发明保护范围的限定。

数据集Movielens，Avazu和Website分别代表是推荐系统，在线广告以及网页收集的三个重要数据集，这些数据集涉及到了不同对象的信息，比如广告的上下文信息，用户的个人信息，以及用户对广告的点击情况。点击率预估是一个经典的二分类任务，其基本思路为通过数据集内的信息获得某个用户可能点击某个对象的概率。

实施例：点击率预估模型

本次实施例主要介绍了基于三支决策理论进行特征交互选择的点击率预估模型的流程图，主要包括以下几个步骤：

其中步骤S1所述将分类特征转换为One-hot编码并且将所得One-hot编码经过Embedding技术进行表达。

在机器学习中，对于分类特征一般会采用One-Hot编码来产生特征向量。于数据的稀疏性结合深度学习复杂的参数，当下的CTR预估任务一般会采用Embedding思想将高维的稀疏特征映射为一个固定维度的向量。例如，在某数据集中有着这样的一个输入例子[Gender＝男,Occupation＝律师，movie_id＝4]，这代表着观看某一电影观众的用户信息，那么经过One-Hot编码可以得到稀疏向量：

由于性别的特征只有两类，所以性别的特征就比较短是二维的，其中[0,1]中的1代表了男性这个特征。但是对于movie_id这个特征，由于类别过多，使用One-Hot编码会导致特征向量中0值过多，造成较大的稀疏性。在点击率预估任务中，一般用一个可以训练的矩阵来将稀疏特征映射到比较低的维度，这起源于自然语言处理中的Embedding思路。嵌入层的输出为E＝[e₁,e₂,…,e_i,…,e_f]，其中f指的是特征域的数量，

代表特征域中某一类特征，k代表着嵌入特征的维度。

S2中构造交互特征的一般模式为通过嵌入得到稠密的特征向量e_i之后，一般采用内积的方式来表示交互特征：

[＜e₁,e₂＞,＜e₁,e₃＞,…,＜e_f-1,e_f>],

其中<·,·>指两个向量的內积，<e_i,e_j>则表示特征i和特征j的交互特征，也有通过其他方式例如外积和点乘来实现特征交互的办法。在FM和DeepFM中，交互特征下所示：

S3构造三支决策门函数的一般步骤为：

步骤1：确定三支决策门的超参数α和β。

当x∈BND(X)时，

当x∈NEG(X)，

假设任意一个交互特征为x＝＜e_i,e_j＞，根据二元Logistic模型，其因变量分为两种情况，即保留交互特征(d＝1)和去除交互特征(d＝0)，依据模型可以得到结果:

即：

通过上式，可以生成下面的判别准则，即：

是基于Logistic的一般判别结果，Pr((d＝1)|x)即为逻辑斯蒂回归中的Sigmoid函数。在三支决策的语义中，利用2个状态集和3个行动集来描述过程，不同于上述判别准则，粗糙集将3个行动状态集表示为接受域POS(X)，拒绝域NEG(X)和延迟决策域BND(X)，对应于保留交互特征(d＝1)，去除交互特征(d＝0)和决定特征是否去除三个部分。基于上述描述的三支决策判别规则可表示为：

其中α，β为相应的阈值，且α+β＝1。

通过上式，可以将交互特征选择分为三部分，在确定阈值后，当x∈POS(X)，保留特征交互x,x∈BND(X)时，将这部分决策交予Sigmoid函数训练得到权重，来决定特征交互x的权重，当x∈NEG(X)时，直接去除交互特征x。由此，成功利用三支决策和Logistic判别分析完成了交互特征的选择过程。图2为三支决策门选择交互特征的过程。

S4即为模型的预测，本发明中将筛选后的交互特征与原有的特征经过Sigmoid进行预测。预估模型的最终输出结果为：

其中为保留原始特征的线性回归输出，

为经过三支决策门之后筛选的特征。最后对于二分类问题通常使用交叉熵损失函数来训练模型：

其中为y_j标签的实际值，

为预测值，N为整个样本的数量。

最后给出本次实施例的评价指标模型的评价标准包括模型损失函数Logloss和AUC(ROC曲线下的面积)。

本实施例不同维度的实验来评估一种基于三支决策理论进行交互特征选择的点击率预估模型，主要用因子分解机及其衍生模型进行对比。数据集的基本信息为：

MovieLens-1M：MovieLens数据集是推荐系统中常用的基线数据集，其中共有100万条包含用户和电影信息的评分数据。为了使用Movielens-1M完成CTR预估的任务,将评分少于4分的样本转换为负样本并将其余部分作为正样本。最后将它随机分为两部分:80％用于训练，20％用于测试。

Aavazu:Avazu是Kaggle平台上的一个点击率预测竞赛数据集，包含了4000万个数据实例的点击日志。它来源于实际的在线广告平台。将Avazu的4000万条数据随机排列，80％为训练集，20％为测试集。

Website:Website是Kaggle平台上一个网站收集的真实数据集，它搜集了不同用户在某软件平台的点击行为，包含了46万条实例。在本次实验中，将Website的46万条数据随机排列，90％为训练集，10％为测试集。

为了保障模型对比的公平性，下表2给出了模型的设置参数：

除了选择原有FM的衍生模型之外，为了进一步验证模型的有效性对比模型增加了PNN，NFM作为基线模型。下表3给出了不同模型之间的对比结果:

其中模型1指的将本文提出的特征选择方法应用因子分解机衍生模型DeepFM，本发明2指的是将本文发明应用于因子分解机xDeepFM。通过模型对比可以发现：

(1)由于点击率预估任务数据的稀疏性(即在数据集中正样本率较低)，产生点击行为的样本数较少，参数学习的有效样本较少，可以观察到各个模型在AUC和Logloss两个指标的差距较小。但在实际的在线广告领域，1‰的差距也意味着巨大的进步。

(2)在三个数据集上，因子分解机模型的衍生模型DeepFM和xDeepFM都有着较为优秀的表现，但本文模型在Logloss和AUC值上均优于因子分解机的衍生模型。这表明，经过本文提出的三支决策理论进行选择特征交互之后，原有模型的表现力有了进一步提升。

Claims

1.基于三支决策理论进行交互特征选择的点击率预估模型，其特征在于包括下述步骤：

S1、数据预处理：对于显式反馈直接用点击情况进行标注；对于隐式反馈，采用阈值法进行标注，即反馈分数超过某一阈值即标注为点击，阈值根据不同数据的评分范围来划分；最后将分类特征利用One-hot编码和Embedding转换为向量；

S4、输出结果：利用选择后的交互特征和原始特征，交互特征是经过三支决策门选择后的特征，最后经过逻辑斯蒂回归函数得到最后的点击概率。

2.根据权利要求1所述的基于三支决策理论进行交互特征选择的点击率预估模型，其特征在于，包括了原始数据处理模块，因子分解机及其衍生模型产生交互特征模块及三支决策门选择交互特征模块，以及最后的预测结果模块；能够区别重要的交互特征信息，剔除冗余交互特征，降低了模型的训练时间，为在线广告平台及推荐系统中点击率预估任务提供新的思路。

3.根据权利要求2所述的一种基于三支决策理论进行交互特征选择的点击率预估模型，其特征在于，所述的原始数据包括广告信息，受众信息以及上下文信息，数据量较大，为亿级。

4.根据权利要求2所述的一种基于三支决策理论进行交互特征选择的点击率预估模型，其特征在于，区分显式反馈与隐式反馈数据，利用One-hot编码将原始分类特征转换为稀疏向量，利用Embedding技术将稀疏矩阵映射为地位的稠密向量。

5.根据权利要求2所述的一种基于三支决策理论进行交互特征选择的点击率预估模型，其特征在于，交互特征的产生主要利用因子分解机及其衍生模型，因子分解机及其衍生模型采用特殊的内积方法进行特征交互。

6.根据权利要求5所述的一种基于三支决策理论进行交互特征选择的点击率预估模型，其特征在于，三支决策门函数是基于三支决策理论和Sigmoid函数提出的一种选择交互特征的函数；交互特征经过因子分解机及其衍生模型选择之后，可以输入至三支决策门函数进行选择，得到经过筛选的比较重要的交互特征。

7.根据权利要求6所述的一种基于三支决策理论进行交互特征选择的点击率预估模型，其特征在于，构造三支决策门的步骤如下：

步骤1：确定三支决策门的超参数α和β；

步骤2：利用阈值α和β将二分类Sigmoid函数划分为正域POS(X),负域NEG(X)以及边界域BND(X)；Sigmoid(x)＞α时，x∈POS(X)；当β<Sigmoid(x)≤α时，x∈BND(X)；当Sigmoid(x)≤β时，x∈NEG(X)；

当x∈BND(X)时，

当x∈NEG(X)，

上述步骤中x为交互特征向量，

为三支决策门函数。

8.根据权利要求1所述的一种基于三支决策理论进行交互特征选择的点击率预估模型，其特征在于，模型的评价标准包括模型损失函数Logloss和AUC(ROC曲线下的面积),Logloss的优化方法为Adam；

其中为y_j标签的实际值，

为预测值，N为整个样本的数量。