CN111339415A - 一种基于多交互式注意力网络的点击率预测方法与装置 - Google Patents

一种基于多交互式注意力网络的点击率预测方法与装置 Download PDF

Info

Publication number
CN111339415A
CN111339415A CN202010115100.4A CN202010115100A CN111339415A CN 111339415 A CN111339415 A CN 111339415A CN 202010115100 A CN202010115100 A CN 202010115100A CN 111339415 A CN111339415 A CN 111339415A
Authority
CN
China
Prior art keywords
user
vector
features
vectors
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010115100.4A
Other languages
English (en)
Other versions
CN111339415B (zh
Inventor
陈恩红
刘淇
张凯
刘杨
吴李康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010115100.4A priority Critical patent/CN111339415B/zh
Publication of CN111339415A publication Critical patent/CN111339415A/zh
Application granted granted Critical
Publication of CN111339415B publication Critical patent/CN111339415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多交互式注意力网络的点击率预测方法与装置,相关方法包括:获取原始特征数据,并划分为用户历史行为特征、商品特征、背景特征和用户特征;将各类特征数据进行向量表征,获得各类特征数据的初始向量;基于注意力机制与特征数据的初始向量,将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互,获得三类交互向量;基于全局注意力机制,将各类特征数据的初始向量与三类交互向量进行处理,获得最终的向量表征;将最终的向量表征输入至深度神经网络,获得商品的点击率预测结果。上述方案中可以提高推荐系统中点击率预测的准确性。

Description

一种基于多交互式注意力网络的点击率预测方法与装置
技术领域
本发明涉及机器学习、数据挖掘以及推荐系统技术领域,尤其涉及一种基于多交互式注意力网络的点击率预测方法与装置。
背景技术
点击率预测(CTR):CTR预测是推荐系统中最核心的算法之一,其目的是对每次商品的点击情况做出预测,预测用户是点击还是不点击。CTR预估和很多因素相关,比如历史点击行为、商品位置、时间、用户信息等,CTR预测模型就是综合考虑各种因素、特征,在大量历史数据上训练得到的模型。CTR预测的训练样本一般从历史log、离线特征库获得。样本标签相对容易,用户点击标记为1,没有点击标记为0。特征则会考虑很多,例如用户的特征、商品自身特征、商品展示特征以及一些背景信息等。点击率预测对许多互联网公司来说很重要,不同公司已经开发了各种推荐系统。例如,谷歌为其应用商店Google Play开发了基于Wide&Deep模型的推荐系统,它结合了浅层线性模型和深层模型的优点,在应用推荐中表现出色。与此同时,点击率预测问题在学术界也在逐渐受到更多的多关注。
交互式特征学习:众所周知,由于线性模型的局限性,不能有效处理特征和目标之间的非线性关系,而特征组合是CTR模型能在推荐系统能取得良好效果的关键因素之一。因此,特征交互便成为推荐系统中的一个重要问题,许多研究都专注于挖掘特征之间的非线性关系。例如,因子分解机(FM)被提出用来学习特征间的二阶交叉特征,从而大大提高了预估的准确性。随着深度学习的发展,诸多研究者提出使用深度神经网络(DNN)来学习高阶的特征交互。然而,尽管目前的一些研究已经明确了特征交互的卓越效果,但解释哪些特征组合有用以及为什么有效仍是一个有待解决的挑战。
注意力机制:注意力机制是一种用于提升基于RNN(LSTM或GRU)的模型效果的的机制(Mechanism),一般称为Attention Mechanism。注意力机制目前非常流行,广泛应用于机器翻译、语音识别、图像标注等很多领域,之所以它这么受欢迎,是因为其给模型赋予了区分辨别的能力。例如,在机器翻译、情感分析等应用中,为句子中的每个词赋予不同的权重,使神经网络模型的学习变得更加灵活。同时注意力机制本身也可以做为一种对齐关系,解释模型输入与输出之间的对齐关系,解释模型到底学到了什么知识,为我们在一定程度上打开了深度学习的黑箱。具体到推荐场景中,Attention机制可以揭示出不同特征的影响程度,从而使得推荐系统更具有可解释性。
在目前的研究工作和专利中,关于点击预测的方法主要有以下方法:
1)基于浅层模型方法的低维特征提取分析。
在推荐系统的早期,人们花费大量时间进行繁琐而繁琐的功能设计。那时,原始特征的数量相对较小,这使得可以较为简单地实现原始特征的不同组合。然后将新创建的特征输入一个浅层模型中,例如被广泛用于CTR预测任务中的线性逻辑斯谛回归(LR)和GBDT。这些方法的一个明显缺点是,由于每个推荐系统数据集的人工特征工程的不同,因此缺乏方法、模型以及效果的可重复性。而随着数据样本和特征的数量变得越来越大,特征表示中的参数呈指数增长,因为特征是由one-hot向量表示的。因此计算复杂度和存储成本成为推荐系统中执行CTR预测的瓶颈。在这种情形之下,出现了一些模型来解决特征的自动二阶交互。例如:因子分解机(FM)将用户和项目特征转换为共享的向量表征,然后学习特征向量的内积,以预测推荐系统的点击率结果。然而,这些方法均存在一些问题,那就是他们不能学习到特征的高纬交互式特征!
2)基于深度神经网络的高维特征自动学习及提取分析。
特征的one-hot(独热)表征,稀疏、低维的向量限制了CTR预测模型的功能。幸运的是,深度学习在自然语言处理和计算机视觉中的巨大成功为推荐系统带来了启发。其中,Wide&Deep将深度神经网络引入CTR预测。它与传统的浅型线性模型一起共同训练一个深度神经网络。深度神经网络将人们从特征工程中解放出来,同时实现了更好更充分的特征组合。由于浅层和深度学习彻底改变了点击率预测的发展方式。自此以来,已提出了诸多深度学习的方法以及许多变体方法。总体而言,上述深度模型通过结合嵌入层的表示能力和深度神经网络特征生成的能力,都具有相似的模型结构,从而大大减少了特征工程的难度。
3)基于序列性的用户历史行为挖掘的个性化挖掘分析。
上面的这些浅层和深层模型以类别和数值特征作为输入,同时丢弃了用户的顺序行为信息。例如,用户可以在电子商务应用程序上搜索商品,然后单击某些感兴趣的商品,然后可以添加到购物车或购买操作中。这些顺序的行为功特征可以明确表明用户的兴趣,因此,顺序行为特征在推荐系统中得到了更多的关注。一些研究人员通过设计顺序行为模型在提取顺序行为特征上花费了很多精力。例如:DIN提出了一个本地激活单元,该单元从相对于潜在项目的顺序行为特征中学习动态用户兴趣,在不同项目上的多样性表明了用户的兴趣水平,这增强了模型的序列表示能力。DIEN通过引入行为,兴趣提取器和兴趣演化层来提高相对于DIN的序列提取能力。行为层提取GRU行为之间的序列依赖性。兴趣提取层在用户行为之间引入了辅助损失,并在每个顺序步骤中学习隐藏状态。上面的研究认识到历史顺序行为的重要性。不幸的是,他们只是将其他信息投影到一个向量中,而没有同时关注特定于用户的信息和上下文感知的信息,而这些信息已在许多任务(例如搜索建议和知识提炼)中显示出广泛的进步。
上述三种现有的方法虽然认识到高阶、低阶以及用户序列性特征的重要性,并能够有较为效提取出这些特征,从而完成点击率预测的任务。但却没有充分考虑到特征具有的一些更多特征问题。即用户对某件商品的点击兴趣更有可能来自各种背景特征以及用户本身的信息特征。例如:机械键盘商品是否会被用户点击可能更与该用户的职业信息有关(游戏爱好者,代码工程师等);而一件T恤衫是否会被用户点击则更可能依赖于当时的背景信息特征(天气,温度,季节等)。因此,如何充分利用用户自身的信息以及背景信息,是提高点击率预测表现的一个重要挑战。
发明内容
本发明的目的是提供一种基于多交互式注意力网络的点击率预测方法与装置,可以提高推荐系统中点击率预测的准确性。
本发明的目的是通过以下技术方案实现的:
一种基于多交互式注意力网络的点击率预测方法,包括:
获取原始特征数据,并划分为用户历史行为特征、商品特征、背景特征和用户特征;
将各类特征数据进行向量表征,获得各类特征数据的初始向量;
基于注意力机制与特征数据的初始向量,将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互,获得三类交互向量;
基于全局注意力机制,将各类特征数据的初始向量与三类交互向量进行处理,获得最终的向量表征;
将最终的向量表征输入至深度神经网络,获得商品的点击率预测结果。
由上述本发明提供的技术方案可以看出,其不仅可以自动学习特征之间的相互联系以及影响,还因为其引入了注意力机制,可以有效得出各部分特征对最终预测结果的影响力大小。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于多交互式注意力网络的点击率预测方法的流程图;
图2为本发明实施例提供的一种基于多交互式注意力网络的点击率预测方法的网络结构示意图;
图3为本发明实施例提供的全局注意力模块的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
预测用户点击广告或商品的概率(点击率预测)是许多应用程序(例如,在线广告和推荐系统)的关键问题。点击率预测通常被定义为具有用户属性和项目属性作为输入特征的有监督学习任务,其预测的表现结果不仅可以想用户推荐更为适合的产品,而且将直接影响业务提供商的最终收入。由于其在推荐场景中所处的重要地位,因此吸引了学术界和工业界的广泛兴趣。在大量的研究方法中,机器学习逐渐在点击率预测中发挥起了关键作用。例如,因式分解机器(FM),将多项式回归模型与分解技术相结合,用于学习特征之间的交叉组合,大大节省了人工成本。然而,它仅对低阶特征交互的建模有效,并且对于捕获高阶特征组合作用并不明显。最近,许多工作提出了许多基于深度神经网络的方法来建模高阶特征交叉。具体而言,通常使用多层非线性神经网络以及深度神经网络来捕获高阶特征的交互。然而,尽管这些神经网络模型在效果上有了一定的提升,却均缺乏一定的解释性。此外,由于其将所有特征映射为一个整体向量进行训练学习,因此对更细粒度特征间的交互信息挖掘程度有限。
本发明实施例提供一种基于多交互式注意力网络的点击率预测方法,其不仅可以自动学习特征之间的相互联系以及影响。还因为其引入了注意力机制,可以有效得出各部分特征对最终预测结果的影响力大小。如图1~图2所示,分别为该方法的流程图与网络结构图。主要包括:
步骤1、获取原始特征数据,并划分为用户历史行为特征、商品特征、背景特征和用户特征。
真实业务场景中,用户的个性化程度非常高,每个人浏览的东西不一样,个人的偏好也不同。幸运的是,在推荐场景中,用户的行为非常丰富,我们可以通过挖掘用户的行为来一定程度上揭示用户的个性化偏好。而根据前文所述,现有的方法通常都是将用户行为序列整合在一起作为用户的历史行为表达,而这样会损失大量的用户偏好信息。所以,在获取到原始的特征数据之后,本发明实施例将特征划分为四个大的类别,即用户历史行为特征(Behaviors)、商品特征(Items)、背景特征(Context)和用户特征(User-specific)。每个类别下都有一些更细粒度的特征,例如,用户特征中包括性别,年龄,职业等;背景特征包括时间,位置、天气等。用户的历史行为则按照时间片划分为具有时序特征的行为序列,以便后续学习不同阶段历史行为对用户偏好表达的影响。
步骤2、将各类特征数据进行向量表征,获得各类特征数据的初始向量。
本步骤主要是将原始的高维稀疏的特征表示成为标准的、低维稠密的特征,如图2所示,通过Embedding Layer(嵌入层)实现。
在经过步骤1的数据特征划分,确定了需要放进模型的特征Xi,Xb,Xu,Xc。之后,就需要对特征进行转换、加工、处理成模型能够识别的格式。而根据不同的数据类型,需要采取不同的处理方式。例如,对于连续型的数据采用标准化或离散化的方法进行向量表征;对于文本类型的数据则宜采用Word2vec的方式进行向量表征;对于类别型的数据(比如,性别)则使用One-hot的编码方式进行向量表征。
本发明实施例中,将一个特征的向量表征表示为
Figure BDA0002391246350000051
根据类型通过映射矩阵进行映射变换,获得各类特征数据的初始向量表示为:
Figure BDA0002391246350000061
其中,Gf是嵌入矩阵,
Figure BDA0002391246350000062
表示初始向量,scalar vector表示采用标准化或离散化的方法、或者Word2vec的方式得到的向量表征,one-hot vector表示采用One-hot的编码方式得到的向量表征;*=i,b,u,c,i、b、u、c分别商品特征类型、用户历史行为特征类型、用户特征类型、背景特征类型;
将各类特征数据的初始向量记为:ei(表示一个整体的特征),
Figure BDA0002391246350000063
Figure BDA0002391246350000064
其中,T代表用户历史行为特征的数量,J代表用户特征的数量,K代表背景特征的数量。
步骤3、基于注意力机制与特征数据的初始向量,将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互,获得三类交互向量。
针对以往的CTR预估模型不能充分挖掘特征之间的深层交互信息,本发明实施例中提出Multi-interactive Layer(特征多交互层)来进行特征之间的交互,并最终能够对不同用户产生不同的个性化表征。
本发明实施例中,特征的交互主要体现在三个方面。首先,由于用户的历史行为中,可能只有部分的行为与当前产品相关。例如,若当前候选推荐产品是衣服,则其与用户历史行为集中衣服相关的行为相关性较高,而与一些电子产品的行为相关性很低。因此,本发明希望通过用户历史行为的序列特征来分析用户的行为偏好,并引入Transformer与Attention机制,将其与item特征进行交互建模来挖掘用户历史的行为与当前item的交互关系。其次,在推荐场景中,用户的兴趣偏好往往是随时间、地点等因素的改变而改变的。特定的时间、地点对用户的影响是极其显著的,若不能充分考虑用户所处的特定阶段,无疑会损失大量的有效信息。然而以往的一些研究却仅将这些context特征与其他特征简单拼接后进行建模,不能够让模型学习到item与context的交互特征,因此模型一般都缺少针对context信息与item信息的挖掘。本发明提出将context特征与item特征进行交互学习,即将两者通过Attention机制来建模彼此之间的影响关系。通过这种方式,不仅充分探索了context特征与item的隐含关系,还作为建模用户偏好的一个补充,能够促使模型学习到更好的用户表征。最后,由于用户的历史行为一定程度上代表了用户的偏好,但却不能完全代表用户的全部信息。与之前的context特征类似,本发明拟通过用户个人信息User-specific与item信息的交互学习,来得到用户在当前item下更为准确的表征,以此来对用户整体进行更为全面,更为个性化的建模。具体来说:
对于用户历史行为特征,通过Transformer模型(主要用来学习历史行为之间的关系),将用户历史行为特征的初始向量表征为hb={h1,…,ht,…,hT},其中,T代表用户历史行为特征的数量,再与商品特征的初始向量ei拼接得到交互向量Vt
Vt=concat(ht,ei);
之后,通过注意力机制来学习不同历史行为之间的关系,得到最终的交互向量Ribim,表示为:
Figure BDA0002391246350000071
Figure BDA0002391246350000072
Figure BDA0002391246350000073
其中,αt表示交互向量Vt的权重,γ(Vt)表示评分函数,Wt表示交互向量Vt的权重矩阵,
Figure BDA0002391246350000074
表示注意力机制中的偏置矩阵;
按照相同的方式,将背景特征和用户特征分别与商品特征进行交互,获得对应的交互向量Ricim与Riuim,即,先通过Transformer模型对向量做进一步表征,再通过注意力机制得到对应的交互向量。
步骤4、基于全局注意力机制,将各类特征数据的初始向量与三类交互向量进行处理,获得最终的向量表征。
在通过前述步骤3的处理后,得到了多交互向量Ribim,Riuim,Ricim;前文的步骤2得到了用户历史行为特征、商品特征、背景特征和用户特征的初始向量eb,ei,ec,eu
初始的embedding向量保留了特征的原始信息,而交互输出的向量则是模型学习特征间隐含交互关系之后的输出。本发明旨在保留原始特征的基础之上,探索特征之间交互式影响对最终预估结果的影响。
如图3所示,将交互向量与初始向量输入至全局注意力模块,通过全局注意力机制进行影响力挖掘,得到最终的向量表征Rg,表示为:
rg=[eb;Ribim;ei;Riuim;eu;Ricim;ec;]
=[r1;r2;r3;r4;r5;r6;r7]
Figure BDA0002391246350000075
其中,Wl
Figure BDA0002391246350000081
分别表示rl对应的权重矩阵、偏置矩阵;Wl'
Figure BDA0002391246350000082
分别表示rl'对应的权重矩阵、偏置矩阵;
步骤5、将最终的向量表征输入至深度神经网络,获得商品的点击率预测结果。
如图2所示,步骤4~步骤5通过Hybrid Prediction Layer(混合预测层)实现。
本发明实施例中,将最终的向量表征Rg输入至深度神经网络(DNN),由深度神经网络对Rg进行特征挖掘,最后通过softmax函数得到商品的点击率预测结果
Figure BDA0002391246350000083
表示为:
Figure BDA0002391246350000084
其中,R表示深度神经网络每一层的输出,W、b为每一层的权重矩阵、偏置矩阵,下标为层数序号,h为深度神经网络的总层数,Wq、bq为全连接层的权重矩阵、偏置矩阵。
本发明实施例中所提到的深度神经网络可以直接采用现有的已经训练好的深度神经网络。
本发明另一实施例还提供一种基于多交互式注意力网络的点击率预测装置,其主要用于实现前述的方法,该装置包括:
数据获取与划分模块,用于获取原始特征数据,并划分为用户历史行为特征、商品特征、背景特征和用户特征;
向量表征模块,用于将各类特征数据进行向量表征,获得各类特征数据的初始向量;
特征多交互模块,基于注意力机制与特征数据的初始向量,将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互,获得三类交互向量;
全局注意力模块,基于全局注意力机制,将各类特征数据的初始向量与三类交互向量进行处理,获得最终的向量表征;
预测模块,用于将最终的向量表征输入至深度神经网络,获得商品的点击率预测结果。
该装置具体实现过程中所涉及的技术细节在前述方法实施例中已经进行了详细的介绍,故不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于多交互式注意力网络的点击率预测方法,其特征在于,包括:
获取原始特征数据,并划分为用户历史行为特征、商品特征、背景特征和用户特征;
将各类特征数据进行向量表征,获得各类特征数据的初始向量;
基于注意力机制与特征数据的初始向量,将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互,获得三类交互向量;
基于全局注意力机制,将各类特征数据的初始向量与三类交互向量进行处理,获得最终的向量表征;
将最终的向量表征输入至深度神经网络,获得商品的点击率预测结果。
2.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法,其特征在于,所述用户特征包括性别,年龄,职业;背景特征包括时间、位置与天气;用户历史行为特征为按照时间片划分的具有时序特征的行为序列。
3.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法,其特征在于,所述将各类特征数据进行向量表征,获得各类特征数据的初始向量包括:
对于连续型的数据采用标准化或离散化的方法进行向量表征;对于文本类型的数据则宜采用Word2vec的方式进行向量表征;对于类别型的数据则使用One-hot的编码方式进行向量表征;
将一个特征的向量表征表示为
Figure FDA0002391246340000011
根据类型通过映射矩阵进行映射变换,获得各类特征数据的初始向量表示为:
Figure FDA0002391246340000012
其中,Gf是嵌入矩阵,
Figure FDA0002391246340000013
表示初始向量,scalar vector表示采用标准化或离散化的方法、或者Word2vec的方式得到的向量表征,one-hot vector表示采用One-hot的编码方式得到的向量表征;*=i,b,u,c,i、b、u、c分别商品特征类型、用户历史行为特征类型、用户特征类型、背景特征类型;
将各类特征数据的初始向量记为:ei
Figure FDA0002391246340000014
Figure FDA0002391246340000015
其中,T代表用户历史行为特征的数量,J代表用户特征的数量,K代表背景特征的数量。
4.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法,其特征在于,所述基于注意力机制与特征数据的初始向量,将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互,获得三类交互向量包括:
对于用户历史行为特征,通过Transformer模型,将用户历史行为特征的初始向量表征为hb={h1,…,ht,…,hT},其中,T代表用户历史行为特征的数量,再与商品特征的初始向量ei拼接得到交互向量Vt
Vt=concat(ht,ei);
之后,通过注意力机制来学习不同历史行为之间的关系,得到最终的交互向量Ribim,表示为:
Figure FDA0002391246340000021
Figure FDA0002391246340000022
Figure FDA0002391246340000023
其中,αt表示交互向量Vt的权重,γ(Vt)表示评分函数,Wt表示交互向量Vt的权重矩阵,
Figure FDA0002391246340000024
表示注意力机制中的偏置矩阵;
按照相同的方式,将背景特征和用户特征分别与商品特征进行交互,获得对应的交互向量Ricim与Riuim
5.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法,其特征在于,所述基于注意力机制,将各类特征数据的初始向量与三类交互向量进行处理,获得最终的向量表征包括:
将三类交互向量记为Ribim,Riuim,Ricim;用户历史行为特征、商品特征、背景特征和用户特征的初始向量依次记为eb,ei,ec,eu
基于全局注意力机制,计算最终的向量表征Rg,表示为:
rg=[eb;Ribim;ei;Riuim;eu;Ricim;ec;]
=[r1;r2;r3;r4;r5;r6;r7]
Figure FDA0002391246340000025
其中,Wl
Figure FDA0002391246340000026
分别表示rl对应的权重矩阵、偏置矩阵;Wl'
Figure FDA0002391246340000027
分别表示rl'对应的权重矩阵、偏置矩阵。
6.根据权利要求1所述的一种基于多交互式注意力网络的点击率预测方法,其特征在于,将最终的向量表征Rg输入至深度神经网络,由深度神经网络对Rg进行特征挖掘,最后通过softmax函数得到商品的点击率预测结果
Figure FDA0002391246340000031
7.一种基于多交互式注意力网络的点击率预测装置,其特征在于,用于实现权利要求1~6任一项所述的方法,该装置包括:
数据获取与划分模块,用于获取原始特征数据,并划分为用户历史行为特征、商品特征、背景特征和用户特征;
向量表征模块,用于将各类特征数据进行向量表征,获得各类特征数据的初始向量;
特征多交互模块,基于注意力机制与特征数据的初始向量,将用户历史行为特征、背景特征和用户特征分别与商品特征进行交互,获得三类交互向量;
全局注意力模块,基于全局注意力机制,将各类特征数据的初始向量与三类交互向量进行处理,获得最终的向量表征;
预测模块,用于将最终的向量表征输入至深度神经网络,获得商品的点击率预测结果。
CN202010115100.4A 2020-02-25 2020-02-25 一种基于多交互式注意力网络的点击率预测方法与装置 Active CN111339415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115100.4A CN111339415B (zh) 2020-02-25 2020-02-25 一种基于多交互式注意力网络的点击率预测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115100.4A CN111339415B (zh) 2020-02-25 2020-02-25 一种基于多交互式注意力网络的点击率预测方法与装置

Publications (2)

Publication Number Publication Date
CN111339415A true CN111339415A (zh) 2020-06-26
CN111339415B CN111339415B (zh) 2023-06-20

Family

ID=71183713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115100.4A Active CN111339415B (zh) 2020-02-25 2020-02-25 一种基于多交互式注意力网络的点击率预测方法与装置

Country Status (1)

Country Link
CN (1) CN111339415B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738780A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 一种推荐对象的方法及系统
CN112182423A (zh) * 2020-10-14 2021-01-05 重庆邮电大学 一种基于注意力机制的信息传播演化趋势预测方法
CN112381581A (zh) * 2020-11-17 2021-02-19 东华理工大学 一种基于改进Transformer的广告点击率预估方法
CN112434184A (zh) * 2020-12-15 2021-03-02 四川长虹电器股份有限公司 基于历史影视海报的深度兴趣网络的排序方法
CN112449025A (zh) * 2020-12-10 2021-03-05 郑州埃文计算机科技有限公司 一种基于自注意力机制的ip场景预测方法
CN112712418A (zh) * 2021-03-25 2021-04-27 腾讯科技(深圳)有限公司 推荐商品信息的确定方法和装置、存储介质及电子设备
CN113220974A (zh) * 2021-05-31 2021-08-06 北京爱奇艺科技有限公司 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN113407819A (zh) * 2021-05-20 2021-09-17 桂林电子科技大学 一种基于残差网络的序列推荐方法、系统及存储介质
CN113595770A (zh) * 2021-07-09 2021-11-02 北京百度网讯科技有限公司 群组点击率预估方法、装置、电子设备和存储介质
CN113706211A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于神经网络的广告点击率预测方法及系统
CN113793187A (zh) * 2021-09-24 2021-12-14 福州大学 基于实例权重平衡和双重注意力的点击率预测方法及系统
CN114358364A (zh) * 2021-11-20 2022-04-15 重庆邮电大学 一种基于注意力机制的短视频点击率大数据预估方法
CN114610950A (zh) * 2020-12-04 2022-06-10 中山大学 一种图网络节点表示方法
CN114692972A (zh) * 2022-03-31 2022-07-01 支付宝(杭州)信息技术有限公司 行为预测系统的训练方法及装置
CN115049108A (zh) * 2022-05-20 2022-09-13 支付宝(杭州)信息技术有限公司 多任务模型训练方法、多任务预测方法、相关装置及介质
CN115062220A (zh) * 2022-06-16 2022-09-16 成都集致生活科技有限公司 基于注意力合并的招工推荐系统
CN114358364B (zh) * 2021-11-20 2024-06-07 上海愚见观池科技有限公司 一种基于注意力机制的短视频点击率大数据预估方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212710A1 (en) * 2017-05-19 2018-11-22 National University Of Singapore Predictive analysis methods and systems
CN109960759A (zh) * 2019-03-22 2019-07-02 中山大学 基于深度神经网络的推荐系统点击率预测方法
US20190325293A1 (en) * 2018-04-19 2019-10-24 National University Of Singapore Tree enhanced embedding model predictive analysis methods and systems
CN110503531A (zh) * 2019-08-30 2019-11-26 中国科学技术大学 时序感知的动态社交场景推荐方法
CN110609948A (zh) * 2019-04-03 2019-12-24 华南理工大学 一种基于多层次注意力机制和场感知分解机的推荐方法
CN110633789A (zh) * 2019-08-27 2019-12-31 苏州市职业大学 用于流媒体推荐的自我注意网络信息处理方法
WO2020020088A1 (zh) * 2018-07-23 2020-01-30 第四范式(北京)技术有限公司 神经网络模型的训练方法和系统以及预测方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212710A1 (en) * 2017-05-19 2018-11-22 National University Of Singapore Predictive analysis methods and systems
US20190325293A1 (en) * 2018-04-19 2019-10-24 National University Of Singapore Tree enhanced embedding model predictive analysis methods and systems
WO2020020088A1 (zh) * 2018-07-23 2020-01-30 第四范式(北京)技术有限公司 神经网络模型的训练方法和系统以及预测方法和系统
CN109960759A (zh) * 2019-03-22 2019-07-02 中山大学 基于深度神经网络的推荐系统点击率预测方法
CN110609948A (zh) * 2019-04-03 2019-12-24 华南理工大学 一种基于多层次注意力机制和场感知分解机的推荐方法
CN110633789A (zh) * 2019-08-27 2019-12-31 苏州市职业大学 用于流媒体推荐的自我注意网络信息处理方法
CN110503531A (zh) * 2019-08-30 2019-11-26 中国科学技术大学 时序感知的动态社交场景推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张天龙;韩立新;: "基于全局与局部相融合的方面注意力推荐模型" *
陶竹林;宋格格;黄祥林;: "点击预测的关键技术研究" *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738780A (zh) * 2020-07-31 2020-10-02 支付宝(杭州)信息技术有限公司 一种推荐对象的方法及系统
CN112182423A (zh) * 2020-10-14 2021-01-05 重庆邮电大学 一种基于注意力机制的信息传播演化趋势预测方法
CN112182423B (zh) * 2020-10-14 2022-09-27 重庆邮电大学 一种基于注意力机制的网络舆情事件演化趋势预测方法
CN112381581A (zh) * 2020-11-17 2021-02-19 东华理工大学 一种基于改进Transformer的广告点击率预估方法
CN112381581B (zh) * 2020-11-17 2022-07-08 东华理工大学 一种基于改进Transformer的广告点击率预估方法
CN114610950B (zh) * 2020-12-04 2023-11-07 中山大学 一种图网络节点表示方法
CN114610950A (zh) * 2020-12-04 2022-06-10 中山大学 一种图网络节点表示方法
CN112449025A (zh) * 2020-12-10 2021-03-05 郑州埃文计算机科技有限公司 一种基于自注意力机制的ip场景预测方法
CN112434184B (zh) * 2020-12-15 2022-03-01 四川长虹电器股份有限公司 基于历史影视海报的深度兴趣网络的排序方法
CN112434184A (zh) * 2020-12-15 2021-03-02 四川长虹电器股份有限公司 基于历史影视海报的深度兴趣网络的排序方法
CN112712418B (zh) * 2021-03-25 2021-07-09 腾讯科技(深圳)有限公司 推荐商品信息的确定方法和装置、存储介质及电子设备
CN112712418A (zh) * 2021-03-25 2021-04-27 腾讯科技(深圳)有限公司 推荐商品信息的确定方法和装置、存储介质及电子设备
CN113407819B (zh) * 2021-05-20 2022-06-17 桂林电子科技大学 一种基于残差网络的序列推荐方法、系统及存储介质
CN113407819A (zh) * 2021-05-20 2021-09-17 桂林电子科技大学 一种基于残差网络的序列推荐方法、系统及存储介质
CN113220974A (zh) * 2021-05-31 2021-08-06 北京爱奇艺科技有限公司 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN113220974B (zh) * 2021-05-31 2024-06-07 北京爱奇艺科技有限公司 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN113595770A (zh) * 2021-07-09 2021-11-02 北京百度网讯科技有限公司 群组点击率预估方法、装置、电子设备和存储介质
CN113595770B (zh) * 2021-07-09 2023-10-10 北京百度网讯科技有限公司 群组点击率预估方法、装置、电子设备和存储介质
CN113706211A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于神经网络的广告点击率预测方法及系统
CN113706211B (zh) * 2021-08-31 2024-04-02 平安科技(深圳)有限公司 基于神经网络的广告点击率预测方法及系统
CN113793187A (zh) * 2021-09-24 2021-12-14 福州大学 基于实例权重平衡和双重注意力的点击率预测方法及系统
CN114358364A (zh) * 2021-11-20 2022-04-15 重庆邮电大学 一种基于注意力机制的短视频点击率大数据预估方法
CN114358364B (zh) * 2021-11-20 2024-06-07 上海愚见观池科技有限公司 一种基于注意力机制的短视频点击率大数据预估方法
CN114692972A (zh) * 2022-03-31 2022-07-01 支付宝(杭州)信息技术有限公司 行为预测系统的训练方法及装置
CN115049108A (zh) * 2022-05-20 2022-09-13 支付宝(杭州)信息技术有限公司 多任务模型训练方法、多任务预测方法、相关装置及介质
CN115062220A (zh) * 2022-06-16 2022-09-16 成都集致生活科技有限公司 基于注意力合并的招工推荐系统

Also Published As

Publication number Publication date
CN111339415B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111339415B (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN110728541B (zh) 信息流媒体广告创意推荐方法及装置
Mitra et al. Helpfulness of online consumer reviews: A multi-perspective approach
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
CN111859160B (zh) 一种基于图神经网络会话序列推荐方法及系统
CN111046294A (zh) 点击率预测方法、推荐方法、模型、装置及设备
CN115964560B (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN110543474A (zh) 一种基于全埋点与潜在因子模型的用户行为分析方法和装置
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN111523315B (zh) 数据处理方法、文本识别方法、装置及计算机设备
Hao et al. Sentiment recognition and analysis method of official document text based on BERT–SVM model
Liu Deep learning in marketing: a review and research agenda
CN110851694A (zh) 基于用户记忆网络和树形结构的深度模型的个性化推荐系统
CN111340605B (zh) 训练用户行为预测模型、用户行为预测的方法和装置
Hain et al. The promises of Machine Learning and Big Data in entrepreneurship research
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116932862A (zh) 冷启动对象推荐方法、装置、计算机设备和存储介质
CN116764236A (zh) 游戏道具推荐方法、装置、计算机设备和存储介质
CN114610913A (zh) 多媒体数据的推荐方法、推荐模型训练方法及相关设备
AU2021106572A4 (en) A recommendation system and method for e-commerce using machine learning
Di Deep interest network for taobao advertising data click-through rate prediction
Peng et al. Design and implementation of an intelligent recommendation system for product information on an e-commerce platform based on machine learning
Agarwal et al. Sentiment Analysis Dashboard for Socia Media comments using BERT
CN117151247B (zh) 机器学习任务建模的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant