CN112270570B

CN112270570B - 一种基于特征组合与表示学习的点击转化率预测方法

Info

Publication number: CN112270570B
Application number: CN202011207345.6A
Authority: CN
Inventors: 曾杨; 肖云鹏; 李暾; 刘红; 桑春艳; 周由胜; 刘宴兵
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2022-03-11
Anticipated expiration: 2040-11-03
Also published as: CN112270570A

Abstract

本发明属于电商大数据推荐领域，特别涉及一种基于特征组合与表示学习的点击转化率预测方法，包括；获取书城电商平台销售数据和基础数据，包括用户数据和书籍数据；通过表示学习与特征组合的方法获取用户数据和书籍数据中的隐藏的属性特征；通过与特征组合与表示学习的联合训练建立预测模型，将获得的隐藏的属性特征作为输入，通过该模型得到点击转化率预测结果本发明针对文本等特征进行深度挖掘得到完整特征空间，通过分析图书营销活动的动态性来预测点击购买的转化率，本发明能够针对书城电商平台提升精准营销的效果。

Description

一种基于特征组合与表示学习的点击转化率预测方法

技术领域

本发明属于电商大数据推荐领域，特别涉及一种基于特征组合与表示学习的点击转化率预测方法。

背景技术

随着网购平台的发展，各大互联网电商平台的竞争日益激烈，阿里、Amazon、Criteo等厂商团队都在针对电商平台打造一个点击率预测模型或点击转化率模型来提高广告相关性的用户体验从而提高收入。近两年，各大著名电商平台将预测模型应用于自己的线上系统对实现了一定程度上的精准营销。可见，一个有效的点击率预测方法或者点击转化率模型，对电商平台的利益以及对用户的购物体验都有很大的提升。

在当前的电商平台中，尽管营销人员想知道网络访问者的反应，但是使用当前技术几乎不可能量化对网站的情感反应以及该网站对公司品牌的影响。不过，点击率和点击后的购买转化率很容易获得。点击率衡量的是页面访问者数量与该页面商品广告点击后并将其重定向到另一个页面的访问者的比例，在该页面中，他们可以购买商品或了解有关产品或服务的更多信息。而点击转化率则是点击后购买的次数与点击次数的比率。

通常，点击率越高，则表明该广告商品更有商业价值或是该营销活动更吸引人。而点击后的购买转化率则更能够反映一个书籍的商业价值。大多数电商网站旨在通过点击率和点击后的购买转化率预测来调整主页商品广告的展示，做个性化推荐，或者调整新商品的进货量。

各大互联网研究团队以及学者在近几年对于点击率，点击转化率模型相关的研究突破主要在以下两方面：一方面是通过深度学习模型代替传统的机器学习方法，代替了初期工业界广泛应用的逻辑回归模型。另一方面是研究者们针对电商平台大量高维稀疏特征间的特征组合问题做出了一定的研究。但是现阶段针对书城电商平台仍存在以下不足：

1.在图书电商平台中，交互特征信息以及大量文本信息中所包含的丰富隐藏信息往往是关键信息，挖掘这些隐藏信息比较困难，单纯地采用自动特征组合模型难以在特定商品电商平台中取得好的效果。

2.图书电商平台中文本类特征复杂多样，基于文档建模的方法通过额外使用文本数据(如摘要或概要)能有效提高预测准确性，但如何在不损失文本核心信息下减少特征词，提取有效特征从而简化计算显然是一个问题。

3.用户连续购买多本图书间随时间变化的关联程度以及营销活动热度随时间变化的程度，这一系列变化对整个模型的预测准确性带来了挑战。

发明内容

针对上述不足，本发明提出一种基于特征组合与表示学习的点击转化率预测方法，具体包括以下步骤：

S1、获取书城电商平台销售数据和基础数据，包括用户数据和书籍数据；

S2、通过表示学习与特征组合的方法获取用户数据和书籍数据中的隐藏的属性特征；

S3、通过与特征组合与表示学习的联合训练建立预测模型，将获得的隐藏的属性特征作为输入，通过该模型得到点击转化率预测结果。

进一步的，通过表示学习与特征组合的方法获取隐藏的属性特征具体包括：

S21、构建图书-用户-活动特征矩阵Triad＝[bo_i,bu_i,a_i]；

S22、根据用户行为计算用户对图书的关注度，表示为Attention_ub＝t_stay(bo_i)*Num(click(bo_i))*fav；

S23、根据营销活动内用户的参与行为构建营销活动影响因子，表示为

S24、根据书籍数据构建图书长文本内容集合，表示为TL＝{(b_i,co,ti)|b_i∈(Pb∪Lb)}；

其中，bo_i为用户浏览的记录，bu_i表示参与活动的所有用户，a_i表示一次营销活动；t_stay(bo)表示用户在该图书间停留时间，Num(click(bo))表示用户对该图书的点击次数，fav表示用户对该图书的收藏标志，且当用户收藏该图书时，该标志值为1，否则值为0.1；c_i为营销活动序号，Num(history(a_i))表示活动时间内参与该活动人数，T表示活动持续时间，Discount表示活动具体内容；bo_i表示图书节点；co表示图书简介内容；t_i表示图书标题内容；Pb为浏览且购买图书，Lb为浏览未购买图书。

进一步的，通过与特征组合与表示学习的联合训练建立预测模型包括：

S30、构建用户-图书-营销活动三部图网络，该三部图表示为：G_BBA＝{Bu∪Bk∪A,M_BB∪M_BA}，其中Bu,Bk,A分别表示购书用户，图书，营销活动；M_BB为用户、图书之间的邻接矩阵，a_ij为矩阵M_BB中的元素；如果用户Bu_i购买了图书Bk_i，a_ij＝1则，否则，a_ij＝0；M_BA为图书、活动之间的邻接矩阵，b_jk为矩阵M_BA中的元素，如果活动A_i包含图书Bo_i，则b_jk＝1，否则b_jk＝0；

S31、用户-图书-营销活动特征组合进行特征组合以及特征分解后的再组合，获取图书的文本tag特征；

S32、基于文本tag特征，将三部图用户-图书-营销活动Triad_BBA的嵌入向量矩阵W₀扩充为嵌入向量矩阵W'₀，获取构建完整特征组合空间；

S33、基于BBA2vec算法将用户与图书通过时间与购买记录构造的特征空间进行向量表示；

S34、将S32构建的完整特征组合空间特征表示作为DNN神经网络的输入，并改进DNN神经网络的损失函数，同时与BBA2vec算法的损失函数联合训练得到预测模型。

进一步的，步骤S31具体包括以下步骤：

S311、针对图书的标题文本以及简介文本TL进行jieba分词、词性标注和过滤停用词，得到标题的候选关键词T_title；

S312、针对图书的简介文本，构建词图G＝(V,E)，计算每个分词的权重并进行排序，选择权重最大K个词作为候选关键词T_context，V表示词语节点，E表示词语间的边；

S313、以T_cand＝T_title+T_context作为一本书籍的候选词组；

S314、将所有用户书评进行jieba分词得到书评词组词典，将每一个候选关键词在词典内进行词频计算，排序筛选出词频最高的m个词；

S315、计算候选关键词在书评文本中的出现词频进行排序获得图书的文本tag特征，该tag特征即为完整特征组合空间。

进一步的，步骤S33具体包括以下步骤：

S331、将三部图用户-图书-营销活动转化为图G_BBA＝(B^Δt，E)，计算边权重w(a_i,bo_i,bu_i)，表示为

S332、利用边权重与两个图书节点之间的搜索偏差的乘积作为转移概率；

S333、利用图书的转移概率决定搜索行走路径，并利用该路径作为用户-图书-活动的特征表示。

本发明利用书城电商平台的已有商品以及用户行为数据，针对文本等特征进行深度挖掘得到完整特征空间；同时应用表示学习的方法对“图书-用户-营销活动”特征组进行表示；并基于图书的营销特性进行建模，通过分析图书营销活动的动态性来预测点击购买的转化率，本发明能够针对书城电商平台提升精准营销的效果。

附图说明

图1为本发明一种基于特征组合与表示学习的点击转化率预测方法框架图；

图2为本发明购书用户-图书-营销活动三部图网络示图；

图3为本发明将用户与图书通过时间与购买记录构造的特征空间进行向量表示的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于特征组合与表示学习的点击转化率预测方法，其特征在于，具体包括以下步骤：

如图1所示为本发明整体框架图，表明本发明的输入是书城电商的基础数据与，经过预测模型后的输出是用户是否购买一本图书的预测结果。

本实施例中，获取书城电商平台销售数据和基础数据，包括用户数据和书籍数据；获取数据的方法，包括从书城提供的数据源或直接下载现有公开数据源都可以得到原始数据等。

通常获取的原始数据都是非结构化的，不能直接用于数据分析。通过简单的数据清洗可以使大部分非结构化数据结构化。例如，删除重复数据、清理无效节点如部分游客数据等。

通过表示学习与特征组合的方法挖掘隐藏属性特征，进一步提取书城数据特征属性，包括以下步骤：

S21：提取构建特征

S211：图书-用户-活动特征矩阵Triad＝[bo_i,bu_i,a_i]

其中b_i为用户浏览的记录，bu_i表示参与活动的所有用户，a_i表示一次营销活动。每一个三元组可以表示为一个用户在一个活动下的购书记录。其中书籍为bo_i∈Pb∪Lb。Pb为浏览且购买书籍，Lb为浏览未购买书籍。

S212:用户图书关注度Attention_ub＝t_stay(bo)*Num(click(bo))*fav

用户对图书的关注度可以定义为图书间停留时间t_stay(bo)，点击次数Num(click(bo))以及收藏标志fav三个条件所决定，其中，收藏标志取已收藏值为1，未收藏值为0.1

S213：营销活动影响因子

其中c_i为营销活动序号；图书电商平台营销活动的影响因素可以有以下几个组成，第一是活动时间内参与该活动人数Num(history(bu₀))，第二是活动持续时间T，第三是活动具体内容，活动具体内容可以具体以折扣表示为Discount。

S214:图书长文本内容集合TL＝{(b_i,co,ti)|b_i∈(Pb∪Lb)}

其中co,ti表示每个样本空间中被浏览书籍的长文本信息，其中co表示简介内容，ti表示标题内容。

针对热门书籍商品热度随时间变化的这一图书营销特性，使用时间衰减函数量化购买行为的动态性以及考虑图书电商平台营销活动设置影响激励因子。通过与特征组合与表示学习的联合训练建立预测模型。

建立模型预测模型主要分为以下阶段：

从书城电商平台的用户基本信息数据、历史行为数据，以及商品的基本属性数据整合出“用户-图书-营销活动”特征三部图；

通过因子分解机对“用户-图书-营销活动”进行特征组合以及特征分解后的再组合，更准确的挖掘出特征间的潜在信息；

利用表示学习方法提出使用BBA2vec方法对“用户-图书-营销活动”三部图进行表示；

结合书城营销特性引入时间衰减函数以及营销活动影响因子，综合考虑“图书-营销活动”关系的内部和外部因素；

结合深度神经网络的预测算法提出一种是基于特征组合与表示学习的书城平台购买率预测模型。

在本实施例中，构建三部图图书-用户-营销活动，该三部图表示为图书-用户-营销活动特征矩阵Triad＝[bo_i,bu_i,a_i]；

特征组合部分可以分为以下步骤：

对于图书电商平台的三个要素用户图书营销活动构建三部图；

文本特征再分解与组合；

三部图三部分两两特征组合。

S311：三部图构建

三部图是一种特殊的图结构，可以把所有节点划分为三个互不相交的子集，并且相关联的两个节点属于不同子集，两组节点之间的连边关系看作是一组邻接矩阵。更为具体的来说，购书用户-图书-营销活动三部图网络BBA如图2所示。BBA三部图表示为G_BBA＝{Bu∪Bk∪A,M_BB∪M_BA}，其中Bu,Bk,A分别表示购书用户，图书，营销活动。M_BB为用户、图书之间的邻接矩阵，a_ij为矩阵M_BB中的元素，如果用户Bu_i购买了图书Bk_i，a_ij＝1则，否则，a_ij＝0；M_BA为图书、活动之间的邻接矩阵，b_jk为矩阵M_BA中的元素，如果活动A_i包含图书Bo_i，则b_jk＝1，否则b_jk＝0。

S312:文本特征再分解与组合

在图书特征中，客户的关注点不在书的尺寸封面等特征，而在于书的文本信息内容。而书城电商平台的文本信息内容往往包括简介内容与用户书评。因此本发明设计了一种通过基于书评词频的book2tag方法对图书简介文本特征再分解后进行特征组合。

图书的文本信息由书的标题与简介内容组成，对标题文本以及简介文本进行jieba分词、词性标注和过滤停用词，得到标题的候选关键词T_title。

由于文本简介内容量远大于标题文本，因此根据TextRank的排名机制得到文本中的关键词。同样首先对每个段落进行jieba分词得到候选关键词，然后构建词图G＝(V,E)，根据TextRank算法得到各分词的权重并进行排序，选TR值最高的Top-k个单词，作为候选关键词T_context，其中k为预设阈值。因此我们最终得到一个候选词组T_cand＝T_title+T_context。

虽然候选关键词在一定程度上能表示这本书的关键信息，但为了能更精准的提出这本书的有用信息，本发明通过计算候选关键词在书评文本中的出现词频进行排序来决定书籍tag。这个过程首先是将所有用户书评进行jieba分词得到书评词组词典，将每一个候选关键词在词典内进行词频计算，最后排序筛选出词频最高的m个词，如果词频有一样或相等的情况则再按TR值进行排序。因此最后作为tag的候选关键词的计算公式可以表示为：

tags＝Max_count＝m(freq(T_cond)_br) (1)

S313:构建完整特征组合空间

加入文本tags特征后，将Triad_BBA的嵌入向量矩阵W₀扩充为嵌入向量矩阵W'₀；W₀为高维稀疏输入特征向量即BBA(one-hot编码)转换为低维密集的嵌入向量的embedding矩阵。W'₀为特征向量BBA特征组合分解后(加入图书tag后)的嵌入向量矩阵；此时特征组合二分类损失函数设置为：

其中，σ为sigmoid分类激活函数，

为预测值，y⁽ⁱ⁾为实际标签值。之后加入优化模型算法SGD，训练时各个参数的梯度设置为：

其中，

表示对预测值每一项求偏导，x_i为输入的特征，w₀为一次项权重参数，w_i为交叉项权重系数，v_i,n为交叉项隐藏量，n为输入的特征总数量。

S32:“用户-图书-活动”特征表示

由于本文是对单个书籍的购买率预测，因此本实施例将从“图书-用户”构建出的结构特征来对其使用向量表示。通常，一本图书的购买在一个营销活动期间某时刻内与特定用户有关，本实施例提出BBA2vec算法，将用户与图书通过时间与购买记录构造的特征空间进行向量表示，如图3所示。本实施例包括以下步骤：

S321:BBA2vec

在每一个营销活动期间的任意Δt时间段内，整个网络可以通过用户浏览书籍的时间先后所表示，营销活动则作为图节点走向的重要指标。将三部图BBA转化为图G_BBA＝(B^Δt，E)，由用户购买行为的图书商品序列所组成，其中

为任一图书节点，并且定义N_r(bo)∈B^Δt为任一图书节点的邻域，该邻域是以r为随机游走路径长度的节点组成，邻域N_r(bo)内越近的图书节点间往往关系密切且拥有共同特征，因此它们可以互相提供上下文信息。

网络节点的边

不仅表示了图书间的关系，由于图是由用户购买序列所组成，因此用户间的关系以及营销活动活动也可以通过图书节点的边所联系。边的权值是根据用户节点与图书间停留时间t_stay(b)，点击次数Num(click(b))以及当前两个相邻节点是否处于同一个营销活动三个条件所决定。为了简化计算，预先定义一个步长为r_step的窗口，由定义3和定义4可将t_stay(b)，Num(click(b))边权值定义

为如下：

其中权值公式中分母为该步长窗口内用户图书关注度总和，s为当前步数，step为总的步数。

BBA2vec的游走方式不同于DeepWalk的随机游走，将设计一种用于G_BBA网络的搜索偏置应用于随机游走中，最后通过skip-gram的学习方法得到购书用户目标向量。

S322:基于用户-图书的采样策略

在此步骤中本实施例设计一个应用于用户图书活动网络中随机游走的搜索偏置。书城平台的图书热度受用户关注度与活跃度和营销活动的激励影响，因此本文用书籍的活跃度决定搜索行走路径。转移概率为上节中的边权值与搜索偏差的乘积如下，其中o(bo_i-1,bo_i)见公式(7)：

tr(bu_i,bo_i)＝w(a_i,bo_i,bu_i)*o(bo_i-1,bo_i) (5)

将转移概率归一化可以得到一个图书节点间的归一化转移概率：

其中o(b_i-1,b_i)为两个图书节点间的搜索偏差，受node2vec启发，结合定义5，两个节点间的时间相差越久则两个节点的关联性越小，因此定义图书动态衰减函数

其中

和

分别为购书用户对上一个图书节点的浏览时间、对当前图书节点的浏览时间，w为边权重w(a_i,bo_i,bu_i)的简写；利用两个参数来引导控制搜索游走路径：

其中pop为图书热度，

为两节点间距离。整个学习过程可以看作是skip-gram方法，训练损失函数设置为：

其中，N(bo_i)为图书节点的领域F(bo_i)为图书节点的嵌入向量表示。

S33：模型算法设计

研究书城平台的点击转化率需要从大量的书城数据中尽可能的挖掘潜在信息。而DNN神经网络具有从交互特征挖掘隐藏信息的特性，将分解机训练得到的参数作为DNN神经网络的输入。因此模型的输入分为以下两部分：

1.权值参数矩阵W_t。权值参数将作为DNN的初始参数值进行分配。

2.用户图书活动完整特征空间作为DNN的输入得到交互项的输出，获取特征间的非线性组合关系。

DNN部分由于电商平台的数据样本不均衡，点击后未购买的数据量远大于点击后购买的数据量，这将会导致训练时损失函数会偏向样本多的一方，从而使模型造成过拟合，而将预测偏向样本数量多的一侧。因此为了防止这一问题，在DNN损失函数设置为带权重的均方误差Weighted MSE，并根据现有数据将正负样本设置比例为19:1，即负样本占总数据的19/20，正样本占总数据的1/20。因此损失函数可以重新定义为：

训练模型时采用联合训练的方式，分别对特征组合与表示学习部分的损失函数共同联合训练模型。最后，模型的整体损失函数可以定义为：

L＝αL_FM+βL_vec+(1-α-β)L_DNN (10)

其中α，β为平衡系数，系数通过实验确定α+β<0.5时，效果最好。同时通过在训练深度神经网络的同时使用dropout的方式，在每个训练批次epoch中，通过忽略一半的特征检测器来减少过拟合现象从而增强模型泛化能力。最后使用sigmoid激活函数对多层神经网络后的输出表示为二分类的概率值，因此结合特征组合与特征表示部分整个模型最后DNN部分可以表示为：

y＝sigmoid(W_L(...α(W_t(Traid_BBA)+b₁)...)+b_L) (11)

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于特征组合与表示学习的点击转化率预测方法，其特征在于，具体包括以下步骤：

S2、通过表示学习与特征组合的方法获取用户数据和书籍数据中的隐藏的属性特征；具体包括以下步骤：

S21、构建图书-用户-活动特征矩阵Triad＝[bo_i,bu_i,a_i]；

其中，bo_i为用户浏览的记录，bu_i表示参与活动的所有用户，a_i表示一次营销活动；t_stay(bo)表示用户在该图书间停留时间，Num(click(bo))表示用户对该图书的点击次数，fav表示用户对该图书的收藏标志，且当用户收藏该图书时，标志值为1，否则值为0.1；c_i为营销活动序号，Num(history(a_i))表示活动时间内参与活动的人数，T表示活动持续时间，Discount表示活动具体内容；bo_i表示图书节点；co表示图书简介内容；t_i表示图书标题内容；Pb为浏览且购买图书，Lb为浏览未购买图书；

S3、通过与特征组合与表示学习的联合训练建立预测模型，即包括以下步骤：

S31、用户-图书-营销活动特征组合进行特征组合以及特征分解后的再组合，获取图书的文本tag特征；即包括以下步骤：

S313、以T_cand＝T_title+T_context作为一本书籍的候选词组；

S315、计算候选关键词在书评文本中的出现词频进行排序获得图书的文本tag特征，该tag特征即为完整特征组合空间；图书的文本tag特征表示为：

tags＝Max_count＝m(freq(T_cand)_br)；

其中，freq(T_cond)_br为词频从高到低的词组列表；

S32、基于文本tag特征，将三部图用户-图书-营销活动Triad_BBA的嵌入向量矩阵W₀扩充为嵌入向量矩阵W′₀，获取构建完整特征组合空间；

S33、基于BBA2vec算法将用户与图书通过时间与购买记录构造的特征空间进行向量表示；具体包括：

S332、利用边权重与两个图书节点之间的搜索偏差的乘积作为图书的活跃度转移概率，即图书的转移概率表示为：

其中，o(b_x,b_i)为游走搜索偏差，即图书的活跃度；p为返回概率；q为出入参数；pop(bo_i)为图书节点bo_i热度值；pop(bo_x)为图书节点bo_x热度值；decay(bo_i-1,bo_i)为图书热度动态衰减函数，表示为

和

分别为购书用户对上一个图书节点的浏览时间和对当前图书节点的浏览时间，w为边权重w(a_i,bo_i,bu_i)的简写；

表示图书节点bo_i到图书节点bo_x的距离；

S332、利用图书的转移概率决定搜索行走路径，并利用该路径作为用户-图书-活动的特征表示；

S34、将S32构建的完整特征组合空间特征表示作为DNN神经网络的输入，并改进DNN神经网络的损失函数，同时与BBA2vec算法的损失函数联合训练得到预测模型；预测模型的损失函数表示为：

L＝αL_FM+βL_vec+(1-α-β)L_DNN；

其中，α、β为平衡系数；L_FM为特征组合的损失函数；L_vec为表示学习的损失函数；L_DNN为改进后的DNN神经网络的损失函数；

将获得的隐藏的属性特征作为输入，通过该模型得到点击转化率预测结果。

2.根据权利要求1所述的一种基于特征组合与表示学习的点击转化率预测方法，其特征在于，改进DNN神经网络的损失函数时，将DNN损失函数设置为带权重的均方误差，并根据现有数据将正负样本设置比例为20:1，改进后的DNN神经网络的损失函数表示为：

其中，L_DNN为改进后的DNN神经网络的损失函数；y是指示变量，如果该类别和样本的类别相同就是1，否则是0；p(Y＝0|X)为，p(Y＝1|X)是网络输出属于标签的预测概率。

3.根据权利要求1所述的一种基于特征组合与表示学习的点击转化率预测方法，其特征在于，在训练预测模型过程中使用dropout的方式，在每个训练批次epoch中，通过忽略一半的特征检测器来减少过拟合现象，使用sigmoid激活函数对多层神经网络后的输出表示为二分类的概率值，因此结合结合特征组合与特征表示的预测模型表示为：

y＝sigmoid(W_L(...α(W_t(Traid_BBA)+b₁)...)+b_L)；

其中，W_t、W_L为权值参数矩阵；b₁、b_L为训练偏置。