CN113010774A - 一种基于动态深度注意力模型的点击率预测方法 - Google Patents

一种基于动态深度注意力模型的点击率预测方法 Download PDF

Info

Publication number
CN113010774A
CN113010774A CN202110206020.4A CN202110206020A CN113010774A CN 113010774 A CN113010774 A CN 113010774A CN 202110206020 A CN202110206020 A CN 202110206020A CN 113010774 A CN113010774 A CN 113010774A
Authority
CN
China
Prior art keywords
layer
feature
data
output
pro
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110206020.4A
Other languages
English (en)
Other versions
CN113010774B (zh
Inventor
邵杰
刘树锦
陈得荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Artificial Intelligence Research Institute Yibin
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202110206020.4A priority Critical patent/CN113010774B/zh
Publication of CN113010774A publication Critical patent/CN113010774A/zh
Application granted granted Critical
Publication of CN113010774B publication Critical patent/CN113010774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于动态深度注意力模型的点击率预测方法,包括以下步骤:S1、在客户端获取用户对推荐项目点击的多个原始数据组;S2、对存储在服务器的多个原始数据组进行预处理,得到多类别的特征数据;S3、将多类别的特征数据输入输入层,得到高维稀疏向量;S4、将高维稀疏向量输入嵌入层,通过嵌入层将高维稀疏向量映射为低维向量数据;S5、通过维数转换层将低维向量数据转换为标准维度向量数据;S6、通过交互层提取标准维度向量数据的高阶特征交互数据;S7、根据高阶特征交互数据,通过输出层计算点击率预测结果;本发明解决了现有点击率预测模型中忽略了对不同的特征需要不一样的计算资源的问题。

Description

一种基于动态深度注意力模型的点击率预测方法
技术领域
本发明涉及信息投放领域,具体涉及一种基于动态深度注意力模型的点击率预测方法。
背景技术
对于大多数互联网公司,例如Google,Amazon和Facebook,推荐系统都是必不可少的。点击率(CTR)预测在推荐系统中起着至关重要的作用,该系统的任务是预测用户点击推荐项目(如广告,音乐或电影)的可能性。预测的性能对两个方面都有重要影响。一方面,它直接决定了商业提供者的最终收入。另一方面,它影响用户体验,这对公司的长期发展具有重要意义。由于其卓越的作用,它引起了人们对研究和工业的越来越多的兴趣。
机器学习最近在点击率预测中发挥了关键作用。众所周知,特征工程通常被认为是成功完成机器学习任务的关键之一。除了使用原始特征之外,对原始特征进行有效转换以提高预测模型的性能通常也很重要。交叉特征是特征变换的主要类型,稀疏原始特征相乘来形成新特征。例如,向20至30岁的女性推荐玫瑰金iPhone是合理的。但是,要找到这种有意义的组合功能,很大程度上取决于领域专家。而且,几乎不可能手动进行所有有意义的组合。为了解决这个问题,现有提出了因式分解机(FM)来建模特征相互作用,并已被证明可用于各种任务。但是,由于其多项式拟合时间的限制,它通常适合于对低阶特征交互进行建模,而对于捕获高阶特征交互则不切实际。
为了对高阶特征交互进行建模,已经提出了许多基于深度神经网络(DNN) 的工作。这些模型更具表现力,并且可以探索大多数特征相互作用。最近的研究表明,当目标是大量不相关函数的集合时,DNN存在梯度不敏感的问题。简单的DNN模型很难找到合适的特征交互。因此,已经提出了一些复杂的体系结构,例如神经因子分解机(NFM)和CIN。然而,事实证明,全连接神经网络在学习乘法特征交互作用方面是低效的,并且这些模型只是在枚举所有特征相互作用。显然,不同的特征对目标任务的重要性不同。例如,电影的主角对观众的影响要大于配角。因此,为了获得更好的结果,模型需要更多地关注有用的特征交互。通常的想法是,某些重要数据可能需要更多的计算才能产生可靠的结果,而一些简单或不重要的数据可能需要更少的计算。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于动态深度注意力模型的点击率预测方法解决了现有点击率预测模型中忽略了对不同的特征需要不一样的计算资源的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于动态深度注意力模型的点击率预测方法,所述动态深度注意力模型包括依次连接的输入层、嵌入层、维数转换层、交互层和输出层,其方法包括以下步骤:
S1、在客户端获取用户对推荐项目点击的多个原始数据组;
S2、将多个原始数据组上传至服务器进行存储,并对存储在服务器的多个原始数据组进行预处理,得到多类别的特征数据;
S3、将多类别的特征数据输入输入层,得到高维稀疏向量;
S4、将高维稀疏向量输入嵌入层,通过嵌入层将高维稀疏向量映射为低维向量数据;
S5、通过维数转换层将低维向量数据转换为标准维度向量数据;
S6、通过交互层提取标准维度向量数据的高阶特征交互数据;
S7、根据高阶特征交互数据,通过输出层计算点击率预测结果。
进一步地,步骤S1中每个所述原始数据组包括:用户数据、推荐项目数据和是否点击。
进一步地,步骤S3中输入层的输出为高维稀疏向量x,x=[x1,…,xi,…,xM],其中,xi为第i类特征数据,M为特征类别个数。
进一步地,步骤S4中嵌入层的输入输出关系式为:
E=[e1,…,ei,…,eM]
ei=Vixi
其中,E为嵌入层输出的低维向量数据,
Figure BDA0002950669630000031
为嵌入矩阵,
Figure BDA0002950669630000032
为实数域,de为嵌入层的维度,ni为第i类特征可取的值的数量,ei为嵌入层输出的第i个低维向量。
进一步地,步骤S5中维数转换层对第i个低维向量进行维度转换的公式为:
ai=WAei+b
Figure BDA0002950669630000033
其中,ai为标准维度向量数据,WA为维数转换层的权重矩阵,dmodel为每个特征类别的维度,b为偏置。
进一步地,步骤S6中交互层包括多个子层,每个所述子层包括:多头自注意力单元和Add&Norm单元;
所述多头自注意力单元的输出数据和多头自注意力单元的输入数据均输入 Add&Norm单元的输入端中;所述多头自注意力单元的输入端作为子层的输入端;所述Add&Norm单元的输出端作为子层的输出端。
进一步地,多头自注意力单元的输入输出的关系式为:
Figure BDA0002950669630000034
Figure BDA0002950669630000035
Figure BDA0002950669630000041
其中,
Figure BDA0002950669630000042
为第1个子层中多头自注意力单元的输入,
Figure BDA0002950669630000043
第一个子层中多头自注意力单元的输出,Concat()表示将结果连在一起,
Figure BDA0002950669630000044
WO为联结参数矩阵,h为头数,dv为值的维度,headi为第i个头的计算结果,
Figure BDA0002950669630000045
Wi Q为查询参数矩阵,dk为键的维度,
Figure BDA0002950669630000046
Wi K为键参数矩阵,
Figure BDA0002950669630000047
Wi V为值参数矩阵。
上述进一步方案的有益效果为:数据存在多个特征域,获取有效的特征组合需要捕获长距离特征,传统的CNN捕获方式依赖于卷积核能够覆盖的最大长度,捕获能力很差,而RNN方式有序列依赖的特性,在并行计算方面有严重的缺陷,本发明采用多头自注意力网络可以高效的捕获有效的特征组合以获得更好的预测效果。
进一步地,Add&Norm单元输入输出的关系式为:
Figure BDA0002950669630000048
其中,
Figure BDA0002950669630000049
为Add&Norm单元的输出,LayerNorm()为归一化函数,
Figure BDA00029506696300000410
为多头自注意力单元的输入,
Figure BDA00029506696300000411
为多头自注意力单元的输出。
进一步地,交互层对标准维度向量数据ai构建的特征类别的状态矩阵X进行处理的方法包括以下步骤:
A1、在计算机系统中输入状态矩阵X、子层数组subs[]、子层总层数L和标量阈值thr;
A2、设定特征类别的停止概率halt_pro、特征类别的更新权重remain、特征类别的更新次数n_up、特征类别的状态state和子层l的初值;
A3、判断特征类别的停止概率halt_pro是否小于标量阈值thr,且特征类别的更新次数n_up小于子层总层数L,若是,则跳转至步骤A4,若否,则跳转至步骤A14;
A4、根据状态矩阵X,采用sigmoid函数计算概率因子p,p=σ(MLP(X)),其中,σ()为sigmoid函数,MLP()为多层感知机;
A5、获取当前子层的需更新的特征类别run:run=halt_pro,且将特征类别的更新次数n_up进行更新:特征类别的更新次数n_up自加特征类别run;
A6、获取当前子层的不会更新的特征类别new_halted,其计算公式为:
new_halted=[(halt_pro+p×run)>thr]×run
A7、获取在下一子层中仍需更新的特征类别no_halted,其计算公式为:
no_halted=[(halt_pro+p×run)≤thr]×run
A8、对特征类别的停止概率halt_pro进行赋值更新,其计算公式为:
halt_pro←halt_pro+p×no_halted
其中,←为赋值;
A9、根据更新后的特征类别的停止概率halt_pro,对特征类别的更新权重 remain进行赋值更新,其计算公式为:
remain←remain+new_halted×(1-halt-pro)
A10、根据更新后的特征类别的更新权重remain和更新后的特征类别的停止概率halt_pro,对特征类别的停止概率halt_pro进行再次赋值更新,其计算公式为:
halt_pro←halt_pro+new_halted×remain
A11、根据更新后的特征类别的更新权重remain,计算特征类别相对应的权重up-w,其计算公式为:
up_w←p×no_halted+new_halted×remain
A12、采用子层数组subs[]进行特征交互,并对状态矩阵X进行赋值更新处理,其计算公式为:
X←subs[l](X)
其中,subs[l]为第l子层;
A13、将l自加1,并基于更新后的状态矩阵X,对特征类别的状态state进行赋值更新处理,其计算公式为:
state←X×up_w+state×(1-up_w)
A14、根据再次更新后的特征类别的停止概率halt_pro和更新后的特征类别的更新次数,跳转至步骤A3进行再次判断,直到不满足步骤A3中的判断条件,最终得到的特征类别的状态state即为子层最终的输出
Figure BDA0002950669630000061
上述进一步方案的有益效果为:上述方案通过多层感知机为特征状态进行计算以得到其对应的停止概率,得到一个监督器的效果,使其自动选择哪些每个特征域需要在网络中传递的层数,当特征域仍需要计算的时候,就为其调用多头自注意力网络来进行特征提取,当特征域已经得到足够的计算时,就停止其更新。其中多层感知机的参数,本发明通过反向传播的方式可以自动获取,整个流程高度自动化。进而得到一种聪明的动态计算方式,实现不同的特征得到应有的计算,而不会计算不足得不到有效的结果,也不会做过多的计算使其对结果有害。该方法不仅可以提升特征提取的效果,而且可以节省计算资源。
进一步地,步骤S7中通过输出层计算点击率预测结果的计算公式为:
Figure BDA0002950669630000062
其中,
Figure BDA0002950669630000063
为点击率预测结果,σ()为sigmoid函数,
Figure BDA0002950669630000064
w为参数向量,Flatten()为将矩阵展平为向量,b′为偏置参数。
综上,本发明的有益效果为:一种基于动态深度注意力模型的点击率预测方法,结合了注意力机制和深度控制方法,可以自动学习高级特征交互。
首先获得好的高阶特征交互对于获得良好的点击率预测效果有着重要的作用。但是当目标是大量不相关函数的集合时,存在不敏感梯度问题。简单的DNN 模型很难找到合适的特征交互。全连接神经网络在学习乘法特征交互作用方面是低效的。在此本发明采用多头自注意力机制来获取特征交互。对低维空间中的特征相互作用进行显式建模。利用多头自注意力单元的不同层,可以对输入特征的特征组合的不同顺序进行建模。这有利于模型找到更好的特征交互。同时设置固定层数的网络会对不同的数据进行同样次数的计算,然而某些重要数据可能需要更多的计算才能产生可靠的结果,而对一些简单或不重要的数据做过多不必要的计算对结果是有害的。所以本发明通过深度控制方法控制不同特征在网络中传递的层数,已获得更好的特征交互效果,同时可以节省计算资源。
附图说明
图1为一种基于动态深度注意力模型的点击率预测方法的流程图;
图2为动态深度注意力模型的结构示意图;
图3为交互层的示意图;
图4为子层示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1~2所示,一种基于动态深度注意力模型的点击率预测方法,所述动态深度注意力模型包括依次连接的输入层、嵌入层、维数转换层、交互层和输出层,其方法包括以下步骤:
S1、在客户端获取用户对推荐项目点击的多个原始数据组;
步骤S1中每个所述原始数据组包括:用户数据、推荐项目数据和是否点击。
S2、将多个原始数据组上传至服务器进行存储,并对存储在服务器的多个原始数据组进行预处理,得到多类别的特征数据;
S3、将多类别的特征数据输入输入层,得到高维稀疏向量;
步骤S3中输入层的输出为高维稀疏向量x,x=[x1,…,xi,…,xM],其中,xi为第i类特征数据,M为特征类别个数。
S4、将高维稀疏向量输入嵌入层,通过嵌入层将高维稀疏向量映射为低维向量数据;
步骤S4中嵌入层的输入输出关系式为:
E=[e1,…,ei,…,eM]
ei=Vixi
其中,E为嵌入层输出的低维向量数据,
Figure BDA0002950669630000081
为嵌入矩阵,
Figure BDA0002950669630000082
为实数域,de为嵌入层的维度,ni为第i类特征可取的值的数量,ei为嵌入层输出的第i个低维向量。
通常,特征类别的数量相对较大,这会导致有嵌入层有很多参数,设置一个较小的维度值de=16加快训练过程。
S5、通过维数转换层将低维向量数据转换为标准维度向量数据;
步骤S5中维数转换层对第i个低维向量进行维度转换的公式为:
ai=WAei+b
Figure BDA0002950669630000083
其中,ai为标准维度向量数据,WA为维数转换层的权重矩阵,dmodel为每个特征类别的维度,b为偏置。
在本实施例中设置dmodel=64。
S6、通过交互层提取标准维度向量数据的高阶特征交互数据;
高阶特征交互对预测性能具有重要意义。交互层是用于计算高阶特征交互的层。本实施例中,使用自适应深度注意力网络对特征交互进行建模。
如图3所示,步骤S6中交互层包括多个子层,每个所述子层包括:多头自注意力单元和Add&Norm单元,如图4所示;
所述多头自注意力单元的输出数据和多头自注意力单元的输入数据均输入 Add&Norm单元的输入端中;所述多头自注意力单元的输入端作为子层的输入端;所述Add&Norm单元的输出端作为子层的输出端。
多头自注意力单元的输入输出的关系式为:
Figure BDA0002950669630000091
Figure BDA0002950669630000092
Figure BDA0002950669630000093
其中,
Figure BDA0002950669630000094
为第1个子层中多头自注意力单元的输入,
Figure BDA0002950669630000095
第一个子层中多头自注意力单元的输出,Concat()表示将结果连在一起,
Figure BDA0002950669630000096
WO为联结参数矩阵,h为头数,dv为值的维度,headi为第i个头的计算结果,
Figure BDA0002950669630000097
Wi Q为查询参数矩阵,dk为键的维度,
Figure BDA0002950669630000098
Wi K为键参数矩阵,
Figure BDA0002950669630000099
Wi V为值参数矩阵。
在本实施例中,设置h=2,dk=dv=32。
注意力机制是将查询和一组键值对映射到输出的功能,其中查询,键,值和输出都是向量。查询,键和值的维度分别为dk,dk,dv。本发明将输出计算为值的加权总和,并通过使用相应的键查询兼容性函数来计算分配给每个值的权重。在此使用所有键计算查询的点积,将每个键除以
Figure BDA0002950669630000101
然后使用softmax函数获得值的权重。
Add&Norm单元输入输出的关系式为:
Figure BDA0002950669630000102
其中,
Figure BDA0002950669630000103
为Add&Norm单元的输出,LayerNorm()为归一化函数,
Figure BDA0002950669630000104
为多头自注意力单元的输入,
Figure BDA0002950669630000105
为多头自注意力单元的输出。
交互层对标准维度向量数据ai构建的特征类别的状态矩阵X进行处理的方法包括以下步骤:
A1、在计算机系统中输入状态矩阵X、子层数组subs[]、子层总层数L和标量阈值thr;
A2、设定特征类别的停止概率halt_pro、特征类别的更新权重remain、特征类别的更新次数n_up、特征类别的状态state和子层l的初值;
Figure BDA0002950669630000106
thr是介于0和1之间的标量阈值,
Figure BDA0002950669630000107
Figure BDA0002950669630000108
A3、判断特征类别的停止概率halt_pro是否小于标量阈值thR,且特征类别的更新次数n_up小于子层总层数L,若是,则跳转至步骤A4,若否,则跳转至步骤A14;
A4、根据状态矩阵X,采用sigmoid函数计算概率因子p,p=σ(MLP(X)), 其中,σ()为sigmoid函数,MLP()为多层感知机;
A5、获取当前子层的需更新的特征类别run:run=halt_pro,且将特征类别的更新次数n_up进行更新:特征类别的更新次数n_up自加特征类别run;
A6、获取当前子层的不会更新的特征类别new_halted,其计算公式为:
new_halted=[(halt_pro+p×run)>thr]×run
A7、获取在下一子层中仍需更新的特征类别no_halted,其计算公式为:
no_halted=[(halt_por+p×run)≤thr]×run
A8、对特征类别的停止概率halt_pro进行赋值更新,其计算公式为:
halt_pro←halt_pro+p×no_halted
其中,←为赋值;
A9、根据更新后的特征类别的停止概率halt_pro,对特征类别的更新权重 remain进行赋值更新,其计算公式为:
remain←remain+new_halted×(1-halt_pro)
A10、根据更新后的特征类别的更新权重remain和更新后的特征类别的停止概率halt_pro,对特征类别的停止概率halt_pro进行再次赋值更新,其计算公式为:
halt_pro←halt_pro+new_halted×remain
A11、根据更新后的特征类别的更新权重remain,计算特征类别相对应的权重up_,其计算公式为:
up_w←p×no_halted+new_halted×remain
A12、采用子层数组subs[]进行特征交互,并对状态矩阵X进行赋值更新处理,其计算公式为:
X←subs[l](X)
其中,subs[l]为第l子层;
A13、将l自加1,并基于更新后的状态矩阵X,对特征类别的状态state进行赋值更新处理,其计算公式为:
state←X×up_w+state×(1-up_w)
A14、根据再次更新后的特征类别的停止概率halt_pro和更新后的特征类别的更新次数,跳转至步骤A3进行再次判断,直到不满足步骤A3中的判断条件,最终得到的特征类别的状态state即为子层最终的输出
Figure BDA0002950669630000121
状态矩阵X进行处理的方法为每个特征域添加了动态暂停机制(即深度控制方法)。一旦特征计算了足够的次数,它将不再被网络更新。当达到最大层数或所有特征停止更新时,网络将生成最终输出。
S7、根据高阶特征交互数据,通过输出层计算点击率预测结果。
步骤S7中通过输出层计算点击率预测结果的计算公式为:
Figure BDA0002950669630000122
其中,
Figure BDA0002950669630000123
为点击率预测结果,σ()为sigmoid函数,
Figure BDA0002950669630000124
w为参数向量,Flatten()为将矩阵展平为向量,b′为偏置参数。
动态深度注意力模型采用以下损失函数对模型进行训练:
Figure BDA0002950669630000125
其中,yi表示对第i个实例的真实点击情况,
Figure BDA0002950669630000126
表示模型预测的点击率,N为样本的总数。
采用在推荐系统这一任务中广泛使用的公开数据集Criteo和Avazu,对本发明的模型进行了效果测试,并将其与现有的方法进行比较。本发明采用点击率预测中两种常用的评价指标AUC和Logloss。
AUC:ROC曲线下的面积是评估分类问题的常用指标。AUC衡量的是正向实例的排名高于随机选择的负向实例的概率。AUC越大越好,其上限为1。
Logloss:Logloss是二进制分类中一种广泛使用的度量标准,用于测量两个分布之间的距离。Logloss的下限为0,这意味着两个分布完全匹配。值越小,性能越好。
比较结果列于表1。
表1:实验结果对比
Figure BDA0002950669630000131

Claims (10)

1.一种基于动态深度注意力模型的点击率预测方法,其特征在于,所述动态深度注意力模型包括依次连接的输入层、嵌入层、维数转换层、交互层和输出层,其方法包括以下步骤:
S1、在客户端获取用户对推荐项目点击的多个原始数据组;
S2、将多个原始数据组上传至服务器进行存储,并对存储在服务器的多个原始数据组进行预处理,得到多类别的特征数据;
S3、将多类别的特征数据输入输入层,得到高维稀疏向量;
S4、将高维稀疏向量输入嵌入层,通过嵌入层将高维稀疏向量映射为低维向量数据;
S5、通过维数转换层将低维向量数据转换为标准维度向量数据;
S6、通过交互层提取标准维度向量数据的高阶特征交互数据;
S7、根据高阶特征交互数据,通过输出层计算点击率预测结果。
2.根据权利要求1所述的基于动态深度注意力模型的点击率预测方法,其特征在于,步骤S1中每个所述原始数据组包括:用户数据、推荐项目数据和是否点击。
3.根据权利要求1所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述步骤S3中输入层的输出为高维稀疏向量x,x=[x1,...,xi,...,xM],其中,xi为第i类特征数据,M为特征类别个数。
4.根据权利要求3所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述步骤S4中嵌入层的输入输出关系式为:
E=[e1,...,ei,...,eM]
ei=Vixi
其中,E为嵌入层输出的低维向量数据,
Figure FDA0002950669620000011
为嵌入矩阵,
Figure FDA0002950669620000012
为实数域,de为嵌入层的维度,ni为第i类特征可取的值的数量,ei为嵌入层输出的第i个低维向量。
5.根据权利要求4所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述步骤S5中维数转换层对第i个低维向量进行维度转换的公式为:
ai=WAei+b
Figure FDA0002950669620000021
其中,ai为标准维度向量数据,WA为维数转换层的权重矩阵,dmodel为每个特征类别的维度,b为偏置。
6.根据权利要求5所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述步骤S6中交互层包括多个子层,每个所述子层包括:多头自注意力单元和Add&Norm单元;
所述多头自注意力单元的输出数据和多头自注意力单元的输入数据均输入Add&Norm单元的输入端中;所述多头自注意力单元的输入端作为子层的输入端;所述Add&Norm单元的输出端作为子层的输出端。
7.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述多头自注意力单元的输入输出的关系式为:
Figure FDA0002950669620000022
Figure FDA0002950669620000023
Figure FDA0002950669620000024
其中,
Figure FDA0002950669620000025
为第1个子层中多头自注意力单元的输入,
Figure FDA0002950669620000026
第一个子层中多头自注意力单元的输出,Concat()表示将结果连在一起,
Figure FDA0002950669620000027
WO为联结参数矩阵,h为头数,dv为值的维度,headi为第i个头的计算结果,
Figure FDA0002950669620000028
Wi Q为查询参数矩阵,dk为键的维度,
Figure FDA0002950669620000029
Wi K为键参数矩阵,
Figure FDA0002950669620000031
Wi V为值参数矩阵。
8.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述Add&Norm单元输入输出的关系式为:
Figure FDA0002950669620000032
其中,
Figure FDA0002950669620000033
为Add&Norm单元的输出,LayerNorm()为归一化函数,
Figure FDA0002950669620000034
为多头自注意力单元的输入,
Figure FDA0002950669620000035
为多头自注意力单元的输出。
9.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述交互层对标准维度向量数据ai构建的特征类别的状态矩阵X进行处理的方法包括以下步骤:
A1、在计算机系统中输入状态矩阵X、子层数组subs[]、子层总层数L和标量阈值thr;
A2、设定特征类别的停止概率halt_pro、特征类别的更新权重remain、特征类别的更新次数n_up、特征类别的状态state和子层l的初值;
A3、判断特征类别的停止概率halt_pro是否小于标量阈值thr,且特征类别的更新次数n_up小于子层总层数L,若是,则跳转至步骤A4,若否,则跳转至步骤A14;
A4、根据状态矩阵X,采用sigmoid函数计算概率因子p,p=σ(MLP(X)),其中,σ()为sigmoid函数,MLP()为多层感知机;
A5、获取当前子层的需更新的特征类别run:run=halt_pro,且将特征类别的更新次数n_up进行更新:特征类别的更新次数n_up自加特征类别run;
A6、获取当前子层的不会更新的特征类别new_halted,其计算公式为:
new_halted=[(halt_pro+p×run)>thr]×run
A7、获取在下一子层中仍需更新的特征类别no_halted,其计算公式为:
no_halted=[(halt_pro+p×run)≤thr]×run
A8、对特征类别的停止概率halt_pro进行赋值更新,其计算公式为:
halt_pro←halt_pro+p×no_halted
其中,←为赋值;
A9、根据更新后的特征类别的停止概率halt_pro,对特征类别的更新权重remain进行赋值更新,其计算公式为:
remain←remain+new_halted×(1-halt_pro)
A10、根据更新后的特征类别的更新权重remain和更新后的特征类别的停止概率halt_pro,对特征类别的停止概率halt_pro进行再次赋值更新,其计算公式为:
halt_pro←halt_pro+new_halted×remain
A11、根据更新后的特征类别的更新权重remain,计算特征类别相对应的权重up_w,其计算公式为:
up_w←p×no_halted+new_halted×remain
A12、采用子层数组subs[]进行特征交互,并对状态矩阵X进行赋值更新处理,其计算公式为:
X←subs[l](X)
其中,subs[l]为第l子层;
A13、将l自加1,并基于更新后的状态矩阵X,对特征类别的状态state进行赋值更新处理,其计算公式为:
state←X×up_w+state×(1-up_w)
A14、根据再次更新后的特征类别的停止概率halt_pro和更新后的特征类别的更新次数,跳转至步骤A3进行再次判断,直到不满足步骤A3中的判断条件,最终得到的特征类别的状态state即为子层最终的输出
Figure FDA0002950669620000051
10.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法,其特征在于,所述步骤S7中通过输出层计算点击率预测结果的计算公式为:
Figure FDA0002950669620000052
其中,
Figure FDA0002950669620000053
为点击率预测结果,σ()为sigmoid函数,
Figure FDA0002950669620000054
w为参数向量,Flatten()为将矩阵展平为向量,b′为偏置参数。
CN202110206020.4A 2021-02-24 2021-02-24 一种基于动态深度注意力模型的点击率预测方法 Active CN113010774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110206020.4A CN113010774B (zh) 2021-02-24 2021-02-24 一种基于动态深度注意力模型的点击率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110206020.4A CN113010774B (zh) 2021-02-24 2021-02-24 一种基于动态深度注意力模型的点击率预测方法

Publications (2)

Publication Number Publication Date
CN113010774A true CN113010774A (zh) 2021-06-22
CN113010774B CN113010774B (zh) 2023-04-07

Family

ID=76385594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110206020.4A Active CN113010774B (zh) 2021-02-24 2021-02-24 一种基于动态深度注意力模型的点击率预测方法

Country Status (1)

Country Link
CN (1) CN113010774B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793187A (zh) * 2021-09-24 2021-12-14 福州大学 基于实例权重平衡和双重注意力的点击率预测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212710A1 (en) * 2017-05-19 2018-11-22 National University Of Singapore Predictive analysis methods and systems
CN109947901A (zh) * 2019-02-20 2019-06-28 杭州师范大学 基于多层感知机和自然语言处理技术的方剂功效预测方法
CN110196946A (zh) * 2019-05-29 2019-09-03 华南理工大学 一种基于深度学习的个性化推荐方法
CN110443353A (zh) * 2019-07-16 2019-11-12 天津大学 一种基于短连接的挖掘特征之间隐含关系的神经网络
CN111523575A (zh) * 2020-04-13 2020-08-11 中南大学 基于短视频多模态特征的短视频推荐模型
CN111538761A (zh) * 2020-04-21 2020-08-14 中南大学 基于注意力机制的点击率预测方法
US20200265466A1 (en) * 2019-02-19 2020-08-20 Nec Laboratories America, Inc. Interpretable click-through rate prediction through hierarchical attention
CN112115371A (zh) * 2020-09-30 2020-12-22 山东建筑大学 一种基于因子分解机的神经注意力机制手机应用推荐模型

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212710A1 (en) * 2017-05-19 2018-11-22 National University Of Singapore Predictive analysis methods and systems
US20200265466A1 (en) * 2019-02-19 2020-08-20 Nec Laboratories America, Inc. Interpretable click-through rate prediction through hierarchical attention
CN109947901A (zh) * 2019-02-20 2019-06-28 杭州师范大学 基于多层感知机和自然语言处理技术的方剂功效预测方法
CN110196946A (zh) * 2019-05-29 2019-09-03 华南理工大学 一种基于深度学习的个性化推荐方法
CN110443353A (zh) * 2019-07-16 2019-11-12 天津大学 一种基于短连接的挖掘特征之间隐含关系的神经网络
CN111523575A (zh) * 2020-04-13 2020-08-11 中南大学 基于短视频多模态特征的短视频推荐模型
CN111538761A (zh) * 2020-04-21 2020-08-14 中南大学 基于注意力机制的点击率预测方法
CN112115371A (zh) * 2020-09-30 2020-12-22 山东建筑大学 一种基于因子分解机的神经注意力机制手机应用推荐模型

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SASCHA ROSBACH 等: "Planning on the fast lane: Learning to interact using attention mechanisms in path integral inverse reinforcement learning", 《2020 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS)》 *
李诗文等: "基于注意力机制的神经网络贝叶斯群组推荐算法", 《计算机应用与软件》 *
温瑶瑶: "注意力机制下基于深度学习的点击率预测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
许王昊 等: "基于注意力机制的兴趣网络点击率预估模型", 《计算机工程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793187A (zh) * 2021-09-24 2021-12-14 福州大学 基于实例权重平衡和双重注意力的点击率预测方法及系统

Also Published As

Publication number Publication date
CN113010774B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Wu et al. Session-based recommendation with graph neural networks
CN110196946B (zh) 一种基于深度学习的个性化推荐方法
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN110503531B (zh) 时序感知的动态社交场景推荐方法
CN112381581B (zh) 一种基于改进Transformer的广告点击率预估方法
CN112364976B (zh) 基于会话推荐系统的用户偏好预测方法
CN111737578B (zh) 一种推荐方法及系统
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及系统
CN111581520B (zh) 基于会话中物品重要性的物品推荐方法和系统
CN108876044B (zh) 一种基于知识增强神经网络的线上内容流行度预测方法
CN110766060B (zh) 基于深度学习的时间序列相似度的计算方法、系统及介质
CN111563770A (zh) 一种基于特征差异化学习的点击率预估方法
CN110619540A (zh) 一种神经网络的点击流预估方法
CN112258262A (zh) 一种基于卷积自注意力网络的会话推荐方法
CN111753209A (zh) 一种基于改进时序卷积网络的序列推荐列表生成方法
CN111695024A (zh) 对象评估值的预测方法及系统、推荐方法及系统
CN111178986B (zh) 用户-商品偏好的预测方法及系统
CN114240555A (zh) 训练点击率预测模型和预测点击率的方法和装置
CN116051175A (zh) 基于深度多兴趣网络的点击率预测模型及预测方法
CN116976505A (zh) 基于信息共享的解耦注意网络的点击率预测方法
CN115376518A (zh) 一种实时噪声大数据的声纹识别方法、系统、设备和介质
CN115080868A (zh) 产品推送方法、装置、计算机设备、存储介质和程序产品
CN113010774B (zh) 一种基于动态深度注意力模型的点击率预测方法
CN116757747A (zh) 基于行为序列和特征重要性的点击率预测方法
CN116523001A (zh) 电网薄弱线路识别模型构建方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant