CN112381581B - 一种基于改进Transformer的广告点击率预估方法 - Google Patents

一种基于改进Transformer的广告点击率预估方法 Download PDF

Info

Publication number
CN112381581B
CN112381581B CN202011282654.XA CN202011282654A CN112381581B CN 112381581 B CN112381581 B CN 112381581B CN 202011282654 A CN202011282654 A CN 202011282654A CN 112381581 B CN112381581 B CN 112381581B
Authority
CN
China
Prior art keywords
user
vector
click
sequence
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011282654.XA
Other languages
English (en)
Other versions
CN112381581A (zh
Inventor
徐洪珍
周菲
付亮
戴晟晖
娄玉娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Chuancha Import and Export Co.,Ltd.
Original Assignee
East China Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Institute of Technology filed Critical East China Institute of Technology
Priority to CN202011282654.XA priority Critical patent/CN112381581B/zh
Publication of CN112381581A publication Critical patent/CN112381581A/zh
Application granted granted Critical
Publication of CN112381581B publication Critical patent/CN112381581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • G06Q30/0256User search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于改进Transformer的广告点击率预估方法,其特征在于,获取用户的历史行为记录构建用户历史点击序列,同时得到目标广告特征向量、上下文特征向量以及用户画像特征向量;输入到嵌入层,通过嵌入层的Embedding技术得到对应的嵌入向量;将用户历史点击序列的嵌入向量输入到改进的Transformer网络,对用户点击序列的物品位置进行改进编码并抽取出用户的历史兴趣,采用Sampleloss监督兴趣的抽取,将用户历史兴趣和目标广告的嵌入向量通过注意力机制,得到经过目标广告相关度加权后的用户历史兴趣;将加权后的用户历史兴趣和目标广告特征、上下文特征以及用户画像特征的嵌入向量进行拼接,然后输入到后续的多层感知机,通过softmax激活函数得到预估的广告点击概率。

Description

一种基于改进Transformer的广告点击率预估方法
技术领域
本发明属于广告点击率预估领域,特别的涉及一种基于改进Transformer的广告点击率预估方法。
背景技术
广告点击率是指在广告展示中广告被用户点击的概率。广告点击率预估是指根据用户数据和广告数据来预估目标广告被点击的概率。在当前的大数据场景下,广告由过去的“粗放式”投放正在向“精准化”投放转变,以数据驱动的广告精准投放已经成为当前广告投放的主流方式,在广告需求方的程序化购买和在线投放过程中需要预先评估用户对广告的偏好程度,而衡量这一重要指标的过程就是广告点击率预估。广告点击率预估是互联网计算广告中的关键环节,广告点击率预估的准确度不仅影响广告产品的收益,同时也影响用户的体验度和满意度。
目前的广告点击率预估方法主要分为基于机器学习的方法和基于深度学习的方法。基于机器学习的方法主要有逻辑回归、因子分解机等等。近年来,基于深度学习的方法比传统基于机器学习的方法展现出了更多的优势,主要体现在:(1)与传统的机器学习方法相比,基于深度学习的广告点击率预估方法表达能力更强,能够挖掘出更多数据中隐藏的模式;(2)深度学习的广告点击率预估模型结构更加灵活,能够根据业务场景和数据特点灵活调整模型,且大大减少人工的特征工程。
CN202010170770.6,涉及一种基于广告点击率阈值调控的目标cpc控制方法及系统,方法包括:根据历史数据训练ctr预估模型,利用模型预估出每一条流量的ctr;建立pid控制器,根据历史数据训练pid控制器;利用pid控制器计算ctr阈值;将预估ctr与ctr阈值进行比较,确定是否对流量出价。即利用pid控制器调控ctr阈值的方式进行流量筛选,进而控制广告的计划cpc。
然而,当前的方法主要存在以下几个问题:1)当前的广告点击率预估方法直接把用户的点击行为当成用户兴趣,缺少对用户的行为序列建模;2)用户的行为是广泛且动态变化的,之前的方法都是把用户的兴趣同等对待,这显然是与事实不符的。
同时,在加入注意力机制方面,CN202010106887.8,一种广告点击率预估模型的建立方法,在模型训练阶段,将数据按照时间顺序依次输入到所选模型进行训练,并保存训练后的中间结果。在模型测试阶段,对于当前测试数据,按照用户标签和时间间隔向前检索所保留的中间结果,将这些中间结果取出,并加入注意力机制,得到一个新的向量,作为当前训练数据的输入中的一部分输入到模型中进行训练,最终的输出作为预测值。
CN202010117174.1公开了一种广告点击率预测方法,包括以下步骤:获取原始实例数据;对原始实例数据进行预处理;构建基于卷积神经网络和注意力机制的广告点击率预测网络模型;对广告点击率预测网络模型进行训练;对广告点击率预测网络模型进行测试。
但结合用户历史行为的时效性、目标广告相关度、改进Transformer和注意力机制等方面,从而进一步探索广告点击率预估方法的技术还有待进一步创新。
发明内容
为解决上述问题,本发明的目的在于提供一种基于改进Transformer的广告点击率预估方法。该方法基于改进的Transformer建模用户的历史行为序列,从而挖掘隐藏在用户点击序列背后的用户兴趣,同时利用Sampleloss监督兴趣的抽取过程,并通过注意力机制将每一步用户兴趣输出和目标广告相关度进行加权,使得相关性高的兴趣得到增强,低相关的兴趣得到削弱,使得对用户兴趣的建模更加精准。
为实现上述目的,本发明的技术方案为:
一种基于改进的Transformer的广告点击率预估方法,包括以下步骤:
S1、获取用户的历史行为记录构建用户历史点击序列,同时得到目标广告特征向量、上下文特征向量以及用户画像特征向量;
S2、将用户历史点击序列、目标广告特征向量、上下文特征向量以及用户画像特征向量输入到嵌入层,通过嵌入层的Embedding技术得到对应的嵌入向量;
S3、将用户历史点击序列的嵌入向量输入到改进的Transformer网络,改进的Transformer网络中增加了时间衰减因子对原transformer的位置编码进行加权、采用Sampleloss用于监督每一步的兴趣输出以及将transformer和注意力机制相结合,使得经过改进Transformer建模后的每一步用户兴趣输出和目标广告根据相似度进行加权;具体过程为:首先对用户点击序列的物品位置进行改进编码并抽取出用户的历史兴趣;然后采用Sampleloss监督用户兴趣的抽取;最后将用户历史兴趣和目标广告特征的嵌入向量通过注意力机制,得到经过目标广告相关度加权后的用户历史兴趣;
S4、将加权后的用户历史兴趣和目标广告特征、上下文特征以及用户画像特征的嵌入向量进行拼接,然后输入到后续的多层感知机,通过softmax激活函数得到预估的广告点击概率。
进一步,所述步骤S1中:
将用户u的历史点击记录按照点击时间排序,得到排序后的该用户点击物品序列,统称为物品序列,对该物品序列进行独热编码,将编码后的物品向量序列称为用户u的点击序列(简称用户点击序列)Su,表示如下:
Su={b1,b2,...,bT}
其中,T为用户点击序列中物品的个数,bt(1≤t≤T)为经过独热编码后该用户第t个点击的物品向量;在广告点击率预估中,其他能利用的特征有:目标广告特征、上下文特征、用户画像特征;其中上下文特征包括用户点击或购买的时间,设备信息;用户画像特征包括用户的id,用户的年龄、性别;通过独热编码分别将目标广告特征、上下文特征、用户画像特征转化为目标广告特征向量xa、上下文特征向量xc、用户画像特征向量xp
进一步,所述步骤S2中:
由于广告类数据呈现高维稀疏性的特点,其上述原始特征也被称为稀疏特征;稀疏特征可以表示为
Figure BDA0002781297530000057
其中M为稀疏特征域的个数,dmodel为嵌入层的Embedding维度;将步骤S1中的用户点击序列Su、目标广告特征向量xa、上下文特征向量xc、用户画像特征向量xp经过嵌入层的Embedding技术得到用户点击序列、目标广告特征、上下文特征、用户画像特征对应的嵌入向量,分别表示如下:
Eu={e1,e2,...,eT}
Figure BDA0002781297530000051
Figure BDA0002781297530000052
Figure BDA0002781297530000053
其中,Eu、Ea、Ec、Ep分别表示用户历史点击序列嵌入向量、目标广告特征嵌入向量、上下文特征嵌入向量、用户画像特征嵌入向量,Na、Nc、Np分别为目标广告特征向量xa、上下文特征向量xc、用户画像特征向量xp的稀疏特征的个数,T为用户点击序列中物品的个数,e1~eT即用户点击序列中第1~T位置的物品嵌入向量。
进一步,所述步骤S3包括:
S31、对用户点击序列中的物品位置进行改进编码;为了表示序列中物品之间的位置关系,对序列中的每个物品向量均分配一个位置向量PE,表示位置编码;然后根据序列中该用户最后一次点击时间和每个位置物品点击时间的时间差Vt,计算时间衰减因子
Figure BDA0002781297530000054
Figure BDA0002781297530000055
为缩减因子,
Figure BDA0002781297530000056
接着得到经过时间衰减因子加权过后的位置编码:PE=PE*f(Vt),Vt越大,则时间衰减因子f(Vt)越接近于0,Vt越小,则时间衰减因子f(Vt)越接近于1,其含义为越是近期的点击行为权值越大,即用户近期的点击行为对预测用户下一次的点击的参考价值越大,越是早期的点击行为对预测用户下一次的点击的参考价值越小;最后将步骤S2得到的用户历史点击序列嵌入向量Eu和序列中各个物品的位置编码向量PE相加,得到融合了位置向量的用户历史点击序列嵌入向量Z;
S32、通过多头自注意力建模用户点击序列中物品之间的关联;将步骤S31输出的向量Z进行多头自注意力计算,即并行将自注意力进行H次拼接,得到多头自注意力层的输出S;
S33、通过归一化层加快模型收敛;为防止由于参数多导致模型收敛速度慢及容易过拟合的问题,采用归一化层加快模型收敛速度及防止模型过拟合,得到归一化层的输出向量S′;
S34、通过前向全连接层加强模型的非线性能力,并再次通过归一化层加快模型收敛;通过两层全连接层进一步加强模型的非线性能力,同时采用LayerNorm和Dropout技术加快模型收敛速度和预防模型的过拟合,得到相应的输出向量O={o1,o2,...,oT},即为用户的历史兴趣,其中T为用户点击序列中物品的个数,ot代表模型基于前面t步预测出来的用户兴趣;
S35、通过Sampleloss监督用户兴趣的抽取;利用Sampleloss监督模型用户历史兴趣的每一步输出,具体方法如下:利用用户u的t+1步点击的物品向量bt+1来监督模型第t步的用户兴趣输出
Figure BDA0002781297530000061
bt+1为用户u第t+1步点击的物品向量,表示为正样本,通过负例采样随机选择总物品中未被该用户点击过的物品为负样本;于是产生
Figure BDA0002781297530000071
u∈1,2,...,N,
Figure BDA0002781297530000072
N为用户的个数,T为用户点击序列中物品的个数,dmodel表示嵌入层的Embedding维度;eu[t+1]表示用户u的点击序列的第t+1个物品的嵌入向量,
Figure BDA0002781297530000073
表示经过负例采样得到用户u的点击序列的第t+1个物品的嵌入向量,Sampleloss的表示向量LSample公式如下:
Figure BDA0002781297530000074
其中,Lsample为模型的Sampleloss(辅助损失函数),N为用户的个数,σ为Sigmoid激活函数。
S36、通过注意力机制建模用户历史点击序列和目标广告特征之间的相关程度,得到经过目标广告相关度加权过后的用户历史兴趣,公式如下:
Figure BDA0002781297530000075
Figure BDA0002781297530000076
其中,at为步骤S34的输出向量ot和目标广告特征的嵌入向量Ea经过注意力加权后的用户历史兴趣,W为权重向量,
Figure BDA0002781297530000077
dh为S34输出向量的维度,dmodel为嵌入层的Embedding维度;at值越大表明输入ot和目标广告特征嵌入向量Ea的相似度越高;A表示经注意力机制加权后的用户历史兴趣的平均值。
进一步,所述步骤S4包括:
S41、对步骤S36的输出向量A和目标广告特征、上下文特征、用户画像特征的嵌入向量Ea、Ec、Ep进行拼接,得到拼接后的向量Y,公式表示如下:
Y=Concat(A,Ea+Ec+Ep)
S42、通过多层感知机进一步加强特征组合并得到预估的广告点击概率;
将步骤S41的输出向量Y经过多层感知机进一步加强特征组合;多层感知机的隐节点个数设置为{200,80,2},最后一层的隐向量个数为2即表示广告点击率预估的二分类,通过softmax激活函数将二分类的输出向量转化为广告点击预估的概率p,其中0表示预测为不点击,1表示预测为点击,公式如下:
Figure BDA0002781297530000081
p=σ(WsY(l)+bs)
其中,σ为激活函数,l为多层感知机的层数(l>=1),
Figure BDA0002781297530000082
分别为多层感知机第l-1层隐节点到第l层隐节点的连接权重和偏置,
Figure BDA0002781297530000083
nl-1和nl分别为第l-1、l层隐节点的个数,Y(l)为第l层的输出隐向量;Ws、bs分别为多层感知机倒数第二层到最后一层的权重和偏置,最后一层的激活函数设置为softmax函数,通过softmax激活函数将二分类的输出向量转化为广告点击预估的概率p,其中0表示预测为不点击,1表示预测为点击;
再计算模型的损失函数,评估模型的好坏。
本发明用于广告点击率预估任务中挖掘用户点击序列背后的潜在兴趣,使得广告点击率预估得更加精准。本发明既建模了用户的历史兴趣序列,又通过注意力机制建模了序列和目标广告的关联,从而使得广告点击率预估更加精准。
本发明改进的Transformer的主要创新性如下:1、增加了时间衰减因子对原transformer的位置编码进行加权,使得越是近期的点击行为对预测用户下一次的点击的参考价值越大,越是早期的点击行为对预测用户下一次的点击的参考价值越小,增加对兴趣建模的时效性;2、增加Sampleloss用于监督每一步的兴趣输出,使得模型的输出和用户的真实兴趣差距得到缩小,提升模型的准确率;3、将transformer和注意力机制相结合,使得经过改进Transformer建模后的每一步用户兴趣输出和目标广告根据相似度进行加权,相关性高的兴趣得到增强,相关性低的兴趣得到削弱,使得对兴趣的建模更加有效。
附图说明
图1为本发明的结构示意图。
图2为本发明的流程示意图。
图3为本发明改进的Transformer网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
实施例1,一种基于改进Transformer的广告点击率预估方法,包括以下步骤:
S1、获取用户的历史行为记录构建用户历史点击序列,同时得到目标广告特征向量、上下文特征向量以及用户画像特征向量;
将用户u的历史点击记录按照点击时间排序,得到排序后的该用户点击物品序列,统称为物品序列,对该物品序列进行独热编码,将编码后的物品向量序列称为用户u的点击序列(简称用户点击序列)Su,表示如下:
Su={b1,b2,...,bT}
其中,T为用户点击序列中物品的个数,bt(1≤t≤T)为经过独热编码后该用户第t个点击的物品向量。具体地,T通常设置为100,如用户的点击物品序列长度超过100,即采取截断方式,取其前100个,如序列长度不足100,对不足部分补0处理。在广告点击率预估中,其他可以利用的特征有:目标广告特征、上下文特征、用户画像特征。其中上下文特征为用户点击或购买的时间,设备信息等,用户画像特征包括用户的id,用户的年龄、性别等等。通过独热编码分别将目标广告特征、上下文特征、用户画像特征转化为目标广告特征向量xa、上下文特征向量xc、用户画像特征向量xp。具体地,某用户的性别为男,则对应的独热向量编码为[0,1]。
S2、将用户历史点击序列、目标广告特征向量、上下文特征向量以及用户画像特征向量输入到嵌入层,通过嵌入层的Embedding技术得到对应的嵌入向量;
由于广告类数据呈现高维稀疏性的特点,其上述原始特征也被称为稀疏特征;稀疏特征可以表示为
Figure BDA0002781297530000111
其中M为稀疏特征域的个数,dmodel为嵌入层的Embedding维度;将步骤S1中的用户点击序列Su、目标广告特征向量xa、上下文特征向量xc、用户画像特征向量xp经过嵌入层的Embedding技术得到用户点击序列、目标广告特征、上下文特征、用户画像特征对应的嵌入向量,分别表示如下:
Eu={e1,e2,...,eT}
Figure BDA0002781297530000112
Figure BDA0002781297530000113
Figure BDA0002781297530000114
其中,Eu、Ea、Ec、Ep分别表示用户历史点击序列嵌入向量、目标广告特征嵌入向量、上下文特征嵌入向量、用户画像特征嵌入向量,Na、Nc、Np分别为目标广告特征向量xa、上下文特征向量xc、用户画像特征向量xp的稀疏特征的个数,T为用户点击序列中物品的个数,e1~eT即用户点击序列中第1~T位置的物品嵌入向量。
S3、将用户历史点击序列的嵌入向量输入到改进的Transformer网络,首先对用户点击序列的物品位置进行改进编码并抽取出用户的历史兴趣;然后采用Sampleloss监督用户兴趣的抽取;最后将用户历史兴趣和目标广告特征的嵌入向量通过注意力机制,得到经过目标广告相关度加权后的用户历史兴趣;
具体包括:
S31、对用户点击序列中的物品位置进行改进编码;
为了表示序列中物品之间的位置关系,对序列中的每个物品向量均分配一个位置向量,同时根据序列中该用户最后一次点击时间和每个位置物品点击时间的时间差进行时间衰减,公式表示如下:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
PE=PE*f(Vt)
Figure BDA0002781297530000121
PE表示位置编码,pos为物品在序列中的位置,2i表示偶数位置,2i+1表示奇数位置,d表示位置编码的维度,这里和嵌入层的维度相同,f(Vt)为时间衰减因子,Vt为序列中该用户最后一次点击时间和每个位置物品点击时间的时间差,
Figure BDA0002781297530000122
为缩减因子,
Figure BDA0002781297530000123
Vt越大,则时间衰减因子f(Vt)越接近于0,Vt越小,则时间衰减因子f(Vt)越接近于1。
最后将步骤S2得到的用户历史点击序列嵌入向量Eu和序列中各个物品的位置编码向量PE相加,得到融合了位置向量的用户历史点击序列嵌入向量Z,公式表示如下:
Z=Eu+PE
S32、通过多头自注意力建模用户点击序列中物品之间的关联;
将步骤S31输出的向量Z进行多头自注意力计算,过程如下:设Wi Q为查询变换矩阵权重向量,Wi K为关键字变换矩阵权重向量,Wi V为值变换矩阵权重向量,首先通过Wi Q、Wi K、Wi V将Z分别转化为查询向量Q、关键字向量K、值向量V;然后将Q、K、V进行自注意力的计算,包括对Q和K进行点积计算,结果除以缩放因子
Figure BDA0002781297530000131
接着经过softmax函数,得到的结果再和V相乘;最后进行多头自注意力计算,即并行将自注意力进行H次拼接,得到多头自注意力层的输出S。具体计算公式如下:
Q=ZWi Q
K=ZWi K
V=ZWi V
Figure BDA0002781297530000132
headi=Multihead(Z)=Attention(ZWi Q,ZWi K,ZWi V)
S=Concat(head1,head2,...,headH)WC
其中,headi表示第i个自注意力(1≤i≤H),多头自注意力S为H个自注意力的拼接。
S33、通过归一化层加快模型收敛;
为防止由于参数多导致模型收敛速度慢及容易过拟合的问题,采用归一化层加快模型收敛速度及防止模型过拟合。具体方法如下:
S′=LayerNorm(Z+Dropout(S))
Z为步骤S31的输出向量,S为S32中多头自注意力的输出,S′为归一化层的输出向量。LayerNorm表示层归一化,主要作用在于加快模型的收敛速度;Dropout为随机失活,用于在参数较多的模型中防止模型的过拟合。
S34、通过前向全连接层加强模型的非线性能力,并再次通过归一化层加快模型收敛;
通过两层全连接层进一步加强模型的非线性能力,同时继续采用LayerNorm和Dropout技术加快模型收敛速度和预防模型的过拟合。具体方法如下:
O=LayerNorm(S′+Dropout(Relu(S′W(1)+b(1))W(2)+b(2)))
O为前向全连接层的输出向量,由于在S31中输入的是一个长度为T的序列,所以将O进一步表示为O={o1,o2,...,oT},即用户的历史兴趣,其中T为用户点击序列中物品的个数,ot代表模型基于前面t步预测出来的用户兴趣。S′为S33的输出向量,W(1)、W(2)和b(1)、b(2)分别为2层前向全连接层的权重系数和偏置。
S35、通过Sampleloss监督用户兴趣的抽取;
利用Sampleloss监督模型用户历史兴趣的每一步输出,具体方法如下:利用用户u的t+1步点击的物品向量bt+1来监督模型第t步的用户兴趣输出
Figure BDA0002781297530000141
bt+1为用户u第t+1步点击的物品向量,表示为正样本,通过负例采样随机选择总物品中未被该用户点击过的物品为负样本;于是产生
Figure BDA0002781297530000142
u∈1,2,...,N,
Figure BDA0002781297530000143
N为用户的个数,T为用户点击序列中物品的个数,dmodel表示嵌入层的Embedding维度;eu[t+1]表示用户u的点击序列的第t+1个物品的嵌入向量,
Figure BDA0002781297530000144
表示经过负例采样得到用户u的点击序列的第t+1个物品的嵌入向量,Sampleloss的表示向量LSample公式如下:
Figure BDA0002781297530000151
其中,Lsample为模型的Sampleloss(辅助损失函数),N为用户的个数,σ为Sigmoid激活函数。
S36、通过注意力机制建模用户历史点击序列和目标广告特征之间的相关程度,得到经过目标广告相关度加权过后的用户历史兴趣,公式如下:
Figure BDA0002781297530000152
Figure BDA0002781297530000153
其中,at为步骤S34的输出向量ot和目标广告特征的嵌入向量Ea经过注意力加权后的用户历史兴趣,W为权重向量,
Figure BDA0002781297530000154
dh为S34输出向量的维度,dmodel为嵌入层的Embedding维度;at值越大表明输入ot和目标广告特征嵌入向量Ea的相关度越高;A表示经注意力机制加权后的用户历史兴趣的平均值。
S4、将加权后的用户历史兴趣和目标广告特征、上下文特征以及用户画像特征的嵌入向量进行拼接,然后输入到后续的多层感知机,通过softmax激活函数得到预估的广告点击概率;
S41、对步骤S36的输出向量A和目标广告特征、上下文特征、用户画像特征的嵌入向量Ea、Ec、Ep进行拼接,得到拼接后的向量Y,公式表示如下:
Y=Concat(A,Ea+Ec+Ep)
S42、通过多层感知机进一步加强特征组合并得到预估的广告点击概率;
将步骤S41的输出向量Y经过多层感知机进一步加强特征组合;多层感知机的隐节点个数设置为{200,80,2},最后一层的隐向量个数为2即表示广告点击率预估的二分类,通过softmax激活函数将二分类的输出向量转化为广告点击预估的概率p,其中0表示预测为不点击,1表示预测为点击,公式如下:
Figure BDA0002781297530000161
p=σ(WsY(l)+bs)
其中,σ为激活函数,l为多层感知机的层数(l>=1),
Figure BDA0002781297530000162
分别为多层感知机第l-1层隐节点到第l层隐节点的连接权重和偏置,
Figure BDA0002781297530000163
nl-1和nl分别为第l-1、l层隐节点的个数,Y(l)为第l层的输出隐向量;Ws、bs分别为多层感知机倒数第二层到最后一层的权重和偏置,最后一层的激活函数设置为softmax函数,通过softmax激活函数将二分类的输出向量转化为广告点击预估的概率p,其中0表示预测为不点击,1表示预测为点击;
S43、计算模型的损失函数;
将二分类交叉熵损失函数作为模型的目标函数,通过最小化损失函数使得模型的参数得到更新。目标函数公式表示如下:
Figure BDA0002781297530000164
L=Ltarget+α*Lsample
其中,Ltarget为模型的输出和样本的偏差,L表示模型的总损失函数,Lsample为模型的Sampleloss(辅助损失函数),α为Sampleloss加入到总损失函数的比例,N为样本的总数及用户的总个数,x为模型的输入,y为真实样本的标签,p(x)为模型的预估概率。
综上所述,本发明实施例提出的一种基于改进Transformer的广告点击率预估方法,该方法采用改进Transformer建模用户点击序列,并加入注意力机制根据目标广告来“反向激活”用户历史点击序列,使得相关性高的兴趣得到增强,低相关度的兴趣得到削弱,从而使得广告点击率的预估更加准确。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (4)

1.一种基于改进Transformer的广告点击率预估方法,其特征在于,包括以下步骤:
S1、获取用户的历史行为记录构建用户历史点击序列,同时得到目标广告特征向量、上下文特征向量以及用户画像特征向量;
S2、将用户历史点击序列、目标广告特征向量、上下文特征向量以及用户画像特征向量输入到嵌入层,通过嵌入层的Embedding技术得到对应的嵌入向量;
S3、将用户历史点击序列的嵌入向量输入到改进的Transformer网络,改进的Transformer网络中增加了时间衰减因子对原transformer的位置编码进行加权、采用Sampleloss用于监督每一步的兴趣输出以及将transformer和注意力机制相结合,使得经过改进Transformer建模后的每一步用户兴趣输出和目标广告根据相似度进行加权;具体过程为:首先对用户点击序列的物品位置进行改进编码并抽取出用户的历史兴趣;然后采用Sampleloss监督用户兴趣的抽取;最后将用户历史兴趣和目标广告特征的嵌入向量通过注意力机制,得到经过目标广告相关度加权后的用户历史兴趣;
步骤S3包括:
S31、对用户点击序列中的物品位置进行改进编码;为了表示序列中物品之间的位置关系,对序列中的每个物品向量均分配一个位置向量PE,表示位置编码;然后根据序列中该用户最后一次点击时间和每个位置物品点击时间的时间差Vt,计算时间衰减因子
Figure FDA0003663021230000011
Figure FDA0003663021230000012
为缩减因子,
Figure FDA0003663021230000013
接着得到经过时间衰减因子加权过后的位置编码:PE=PE*f(Vt),Vt越大,则时间衰减因子f(Vt)越接近于0,Vt越小,则时间衰减因子f(Vt)越接近于1;最后将步骤S2得到的用户历史点击序列嵌入向量Eu和序列中各个物品的位置编码向量PE相加,得到融合了位置向量的用户历史点击序列嵌入向量Z;
S32、通过多头自注意力建模用户点击序列中物品之间的关联;将步骤S31输出的向量Z进行多头自注意力计算,即并行将自注意力进行H次拼接,得到多头自注意力层的输出S;
S33、通过归一化层加快模型收敛;为防止由于参数多导致模型收敛速度慢及容易过拟合的问题,采用归一化层加快模型收敛速度及防止模型过拟合,得到归一化层的输出向量S′;
S34、通过前向全连接层加强模型的非线性能力,并再次通过归一化层加快模型收敛;通过两层全连接层进一步加强模型的非线性能力,同时采用LayerNorm和Dropout技术加快模型收敛速度和预防模型的过拟合,得到相应的输出向量O={o1,o2,...,oT},即为用户的历史兴趣,其中T为用户点击序列中物品的个数,ot代表模型基于前面t步预测出来的用户兴趣;
S35、通过Sampleloss监督用户兴趣的抽取;利用Sampleloss监督模型用户历史兴趣的每一步输出,具体方法如下:利用用户u的t+1步点击的物品向量bt+1来监督模型第t步的用户兴趣输出
Figure FDA0003663021230000021
bt+1为用户u第t+1步点击的物品向量,表示为正样本,通过负例采样随机选择总物品中未被该用户点击过的物品为负样本;于是产生
Figure FDA0003663021230000022
u∈1,2,...,N,
Figure FDA0003663021230000036
N为用户的个数,T为用户点击序列中物品的个数,dmodel表示嵌入层的Embedding维度;eu[t+1]表示用户u的点击序列的第t+1个物品的嵌入向量,
Figure FDA0003663021230000031
表示经过负例采样得到用户u的点击序列的第t+1个物品的嵌入向量,Sampleloss的表示向量LSample公式如下:
Figure FDA0003663021230000032
其中,Lsample为模型的Sampleloss辅助损失函数,N为用户的个数,σ为Sigmoid激活函数;
S36、通过注意力机制建模用户历史点击序列和目标广告特征之间的相关程度,得到经过目标广告相关度加权过后的用户历史兴趣,公式如下:
Figure FDA0003663021230000033
Figure FDA0003663021230000034
其中,at为步骤S34的输出向量ot和目标广告特征的嵌入向量Ea经过注意力加权后的用户历史兴趣,W为权重向量,
Figure FDA0003663021230000035
dh为S34输出向量的维度,dmodel为嵌入层的Embedding维度;at值越大表明输入ot和目标广告特征嵌入向量Ea的相似度越高;A表示经注意力机制加权后的用户历史兴趣的平均值;
S4、将加权后的用户历史兴趣和目标广告特征、上下文特征以及用户画像特征的嵌入向量进行拼接,然后输入到后续的多层感知机,通过softmax激活函数得到预估的广告点击概率。
2.如权利要求1所述的方法,其特征在于,所述步骤S1中:
将用户u的历史点击记录按照点击时间排序,得到排序后的该用户点击物品序列,统称为物品序列,对该物品序列进行独热编码,将编码后的物品向量序列称为用户u的点击序列简称用户点击序列Su,表示如下:
Su={b1,b2,...,bT}
其中,T为用户点击序列中物品的个数,bt(1≤t≤T)为经过独热编码后该用户第t个点击的物品向量;在广告点击率预估中,其他能利用的特征有:目标广告特征、上下文特征、用户画像特征;其中上下文特征包括用户点击或购买的时间,设备信息;用户画像特征包括用户的id,用户的年龄、性别;通过独热编码分别将目标广告特征、上下文特征、用户画像特征转化为目标广告特征向量xa、上下文特征向量xc、用户画像特征向量xp
3.如权利要求1所述的方法,其特征在于,所述步骤S2中:
由于广告类数据呈现高维稀疏性的特点,其原始特征也被称为稀疏特征;稀疏特征表示为
Figure FDA0003663021230000041
其中M为稀疏特征域的个数,dmodel为嵌入层的Embedding维度;将步骤S1中的用户点击序列Su、目标广告特征向量xa、上下文特征向量xc、用户画像特征向量xp经过嵌入层的Embedding技术得到用户点击序列、目标广告特征、上下文特征、用户画像特征对应的嵌入向量,分别表示如下:
Eu={e1,e2,...,eT}
Figure FDA0003663021230000042
Figure FDA0003663021230000051
Figure FDA0003663021230000052
其中,Eu、Ea、Ec、Ep分别表示用户历史点击序列嵌入向量、目标广告特征嵌入向量、上下文特征嵌入向量、用户画像特征嵌入向量,Na、Nc、Np分别为目标广告特征向量xa、上下文特征向量xc、用户画像特征向量xp的稀疏特征的个数,T为用户点击序列中物品的个数,e1~eT即用户点击序列中第1~T位置的物品嵌入向量。
4.如权利要求1所述的方法,其特征在于,所述步骤S4包括:
S41、对步骤S36的输出向量A和目标广告特征、上下文特征、用户画像特征的嵌入向量Ea、Ec、Ep进行拼接,得到拼接后的向量Y,公式表示如下:
Y=Concat(A,Ea+Ec+Ep)
S42、通过多层感知机进一步加强特征组合并得到预估的广告点击概率;
将步骤S41的输出向量Y经过多层感知机进一步加强特征组合;多层感知机的隐节点个数设置为{200,80,2},最后一层的隐向量个数为2即表示广告点击率预估的二分类,通过softmax激活函数将二分类的输出向量转化为广告点击预估的概率p,其中0表示预测为不点击,1表示预测为点击,公式如下:
Figure FDA0003663021230000053
p=σ(WsY(l)+bs)
其中,σ为激活函数,l为多层感知机的层数(l>=1),
Figure FDA0003663021230000054
分别为多层感知机第l-1层隐节点到第l层隐节点的连接权重和偏置,
Figure FDA0003663021230000061
nl-1和nl分别为第l-1、l层隐节点的个数,Y(l)为第l层的输出隐向量;Ws、bs分别为多层感知机倒数第二层到最后一层的权重和偏置,最后一层的激活函数设置为softmax函数,通过softmax激活函数将二分类的输出向量转化为广告点击预估的概率p,其中0表示预测为不点击,1表示预测为点击;
再计算模型的损失函数。
CN202011282654.XA 2020-11-17 2020-11-17 一种基于改进Transformer的广告点击率预估方法 Active CN112381581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011282654.XA CN112381581B (zh) 2020-11-17 2020-11-17 一种基于改进Transformer的广告点击率预估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011282654.XA CN112381581B (zh) 2020-11-17 2020-11-17 一种基于改进Transformer的广告点击率预估方法

Publications (2)

Publication Number Publication Date
CN112381581A CN112381581A (zh) 2021-02-19
CN112381581B true CN112381581B (zh) 2022-07-08

Family

ID=74585663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011282654.XA Active CN112381581B (zh) 2020-11-17 2020-11-17 一种基于改进Transformer的广告点击率预估方法

Country Status (1)

Country Link
CN (1) CN112381581B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862007B (zh) * 2021-03-29 2022-12-13 山东大学 基于用户兴趣编辑的商品序列推荐方法及系统
CN113256339B (zh) * 2021-06-04 2023-08-29 脸萌有限公司 资源投放的方法、装置、存储介质及电子设备
CN113537560A (zh) * 2021-06-07 2021-10-22 同盾科技有限公司 用户投保意愿预测的方法、系统、电子装置和存储介质
CN113595770B (zh) * 2021-07-09 2023-10-10 北京百度网讯科技有限公司 群组点击率预估方法、装置、电子设备和存储介质
CN113706211B (zh) * 2021-08-31 2024-04-02 平安科技(深圳)有限公司 基于神经网络的广告点击率预测方法及系统
CN113793175A (zh) * 2021-09-07 2021-12-14 广东工业大学 基于双线性ffm和多头注意力机制的广告点击率预估方法
CN113888238B (zh) * 2021-10-25 2024-04-09 重庆邮电大学 一种广告点击率预测方法、装置及计算机设备
CN114519606A (zh) * 2022-01-29 2022-05-20 北京京东尚科信息技术有限公司 信息传播效果的预测方法及装置
CN114638646A (zh) * 2022-03-25 2022-06-17 广州华多网络科技有限公司 广告投放推荐方法及其装置、设备、介质、产品
CN114692972A (zh) * 2022-03-31 2022-07-01 支付宝(杭州)信息技术有限公司 行为预测系统的训练方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816101A (zh) * 2019-01-31 2019-05-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于图卷积神经网络的会话序列推荐方法及系统
CN110688860A (zh) * 2019-09-27 2020-01-14 电子科技大学 一种基于transformer多种注意力机制的权重分配方法
CN110737778A (zh) * 2019-09-04 2020-01-31 北京邮电大学 基于知识图谱和Transformer的专利推荐方法
CN110751261A (zh) * 2018-07-23 2020-02-04 第四范式(北京)技术有限公司 神经网络模型的训练方法和系统以及预测方法和系统
CN110929206A (zh) * 2019-11-20 2020-03-27 腾讯科技(深圳)有限公司 点击率预估方法、装置、计算机可读存储介质和设备
CN110929164A (zh) * 2019-12-09 2020-03-27 北京交通大学 一种基于用户动态偏好与注意力机制的兴趣点推荐方法
CN111325579A (zh) * 2020-02-25 2020-06-23 华南师范大学 一种广告点击率预测方法
CN111339415A (zh) * 2020-02-25 2020-06-26 中国科学技术大学 一种基于多交互式注意力网络的点击率预测方法与装置
CN111340537A (zh) * 2020-02-20 2020-06-26 大连理工大学 一种广告点击率预估模型的建立方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751261A (zh) * 2018-07-23 2020-02-04 第四范式(北京)技术有限公司 神经网络模型的训练方法和系统以及预测方法和系统
CN109816101A (zh) * 2019-01-31 2019-05-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于图卷积神经网络的会话序列推荐方法及系统
CN110737778A (zh) * 2019-09-04 2020-01-31 北京邮电大学 基于知识图谱和Transformer的专利推荐方法
CN110688860A (zh) * 2019-09-27 2020-01-14 电子科技大学 一种基于transformer多种注意力机制的权重分配方法
CN110929206A (zh) * 2019-11-20 2020-03-27 腾讯科技(深圳)有限公司 点击率预估方法、装置、计算机可读存储介质和设备
CN110929164A (zh) * 2019-12-09 2020-03-27 北京交通大学 一种基于用户动态偏好与注意力机制的兴趣点推荐方法
CN111340537A (zh) * 2020-02-20 2020-06-26 大连理工大学 一种广告点击率预估模型的建立方法
CN111325579A (zh) * 2020-02-25 2020-06-23 华南师范大学 一种广告点击率预测方法
CN111339415A (zh) * 2020-02-25 2020-06-26 中国科学技术大学 一种基于多交互式注意力网络的点击率预测方法与装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"An Attention-based Deep Network for CTR Prediction";Hailong Zhang;《ICMLC 2020: Proceedings of the 2020 12th International Conference on Machine Learning and Computing》;20200526;1-5 *
"Attentive capsule network for click-through rate and conversion rate prediction in online advertising";DongfangLi;《ELSEVIER》;20201020;1-10 *
"Deep interest network for click-through rate prediction";Zhou Guorui;《Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining》;20180719;1059-1068 *
"基于深度网络模型压缩的广告点击率预估模型";李致贤;《桂林电子科技大学学报》;20201025(第5期);418-423 *
"基于融合结构的在线广告点击率预测模型";刘梦娟;《计算机学报》;20190125;1570-1587 *

Also Published As

Publication number Publication date
CN112381581A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN112381581B (zh) 一种基于改进Transformer的广告点击率预估方法
Wu et al. Session-based recommendation with graph neural networks
CN109345302B (zh) 机器学习模型训练方法、装置、存储介质和计算机设备
CN111209386B (zh) 一种基于深度学习的个性化文本推荐方法
CN110781409B (zh) 一种基于协同过滤的物品推荐方法
CN112258262B (zh) 一种基于卷积自注意力网络的会话推荐方法
CN110619540A (zh) 一种神经网络的点击流预估方法
CN113962294B (zh) 多类型事件预测模型
CN111753209A (zh) 一种基于改进时序卷积网络的序列推荐列表生成方法
CN110175857B (zh) 优选业务确定方法及装置
CN111581520A (zh) 基于会话中物品重要性的物品推荐方法和系统
CN111563770A (zh) 一种基于特征差异化学习的点击率预估方法
CN113190751B (zh) 一种融合关键词生成的推荐方法
CN112700274A (zh) 一种基于用户偏好的广告点击率预估方法
CN113139850A (zh) 一种缓解数据稀疏性和商品冷启动的商品推荐模型
Wang et al. Webpage depth viewability prediction using deep sequential neural networks
CN116051175A (zh) 基于深度多兴趣网络的点击率预测模型及预测方法
Chen et al. A new approach for mobile advertising click-through rate estimation based on deep belief nets
She et al. Research on advertising click-through rate prediction based on CNN-FM hybrid model
CN116757747A (zh) 基于行为序列和特征重要性的点击率预测方法
CN113010774B (zh) 一种基于动态深度注意力模型的点击率预测方法
CN115293812A (zh) 一种基于长短期兴趣的电商平台会话感知推荐预测方法
CN112559905B (zh) 一种基于双模式注意力机制和社交相似度的会话推荐方法
Kwon et al. Improving RNN based recommendation by embedding-weight tying
Damian et al. Advanced customer activity prediction based on deep hierarchic encoder-decoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230928

Address after: Building 3, Entrepreneurship Incubation Base, Chongren County, Fuzhou City, Jiangxi Province, 344000

Patentee after: Jiangxi Chuancha Import and Export Co.,Ltd.

Address before: 344000 No. 56, Xuefu Road, Fuzhou, Jiangxi

Patentee before: EAST CHINA INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right