CN111737578B - 一种推荐方法及系统 - Google Patents
一种推荐方法及系统 Download PDFInfo
- Publication number
- CN111737578B CN111737578B CN202010577298.8A CN202010577298A CN111737578B CN 111737578 B CN111737578 B CN 111737578B CN 202010577298 A CN202010577298 A CN 202010577298A CN 111737578 B CN111737578 B CN 111737578B
- Authority
- CN
- China
- Prior art keywords
- user
- feature
- layer
- low
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000003993 interaction Effects 0.000 claims abstract description 126
- 230000007246 mechanism Effects 0.000 claims abstract description 48
- 238000012544 monitoring process Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 66
- 230000006399 behavior Effects 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 25
- 238000013507 mapping Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims 2
- 238000002474 experimental method Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000013103 analytical ultracentrifugation Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种推荐方法及系统,该方法包括如下步骤:S100:将原始数据转化为数值数据,将大规模稀疏特征转化为低维密集特征;S200:获得用户的兴趣表示;S300:分别提取用户和项目的高阶特征交互和低阶特征交互,基于线性的全局注意力机制监视高阶特征交互和低阶特征交互对于点击率预测的不同贡献;S400:预测用户是否点击候选项,最终完成向用户推荐项目。该方法及系统的有效性和性能明显优于现有方法,并提供了良好的解释性。
Description
技术领域
本公开属于人工神经网络及个性化推荐技术领域,特别涉及一种推荐方法及系统。
背景技术
随着互联网服务和移动设备的发展,互联网用户可以轻松访问大量的在线产品和服务。然而,当人们在享受着互联网带来便利的同时,也面临着信息过载的问题。为了减少信息过载,满足用户的需求,推荐系统被发展起来并在现代生活中发挥着越来越重要的作用。其目的是帮助用户从互联网平台的海量信息(产品、服务)中选择合适的信息,已成功应用于各类线上互联网平台产品及服务的个性化推荐。
推荐系统的关键任务之一是预测点击率,即估计用户点击推荐项目的概率。在许多推荐系统中,目标是最大化点击次数,以便根据估计的点击率对推荐项目进行排序。正确估计点击率都是至关重要的,由于其重要性,越来越多的研究者开始致力于点击率预测的研究。
有效地学习用户点击行为背后的隐含特征交互是点击率预测的一个重要挑战。传统的点击率预测方法,如经典的线性模型,虽然结构简单,但在学习特征交互方面存在局限性,如:1)缺乏学习特征交互的能力,2)过度依赖人工提取的特征交互。因此传统的方法在大规模系统中是不可行的。近年来,随着深度学习在计算机视觉、语音识别、自然语言处理等领域的成功应用,许多点击率预测模型从传统的方法向深度点击率模型转变。这些深度点击率预测模型减轻了特征工程的负担,提高了模型的性能。例如,基于产品的神经网络(PNN),深度交叉网络(Deep Crossing Network)、宽深模型(Wide&Deep)、深度兴趣网络(DIN)等,这些方法利用多层非线性神经网络自动提取高阶特征交互,提高了模型的性能。类似的模型,Deep&Cross网络,深度神经网络(DNN),在一定程度上改善了点击率预测。然而,这种方法有两个局限性:1)只捕获高阶特征交互2)缺乏对哪些特征交互更有意义的解释。
发明内容
为了解决上述问题,本公开提供了一种推荐方法,包括如下步骤:
S100:将原始数据转化为数值数据,将大规模稀疏特征转化为低维密集特征;
S200:获得用户的兴趣表示;
S300:分别提取用户和项目的高阶特征交互和低阶特征交互,基于线性的全局注意力机制监视高阶特征交互和低阶特征交互对于点击率预测的不同贡献;
S400:预测用户是否点击候选项,最终完成向用户推荐项目。
本公开还提供了一种推荐系统,包括特征向量化层、兴趣提取层、特征提取层和预测层;其中,
所述特征向量化层将原始数据转化为数值数据,将大规模稀疏特征转化为低维密集特征
所述兴趣提取层获得用户的兴趣表示;
所述特征提取层分别提取用户和项目的高阶特征交互和低阶特征交互,基于线性的全局注意力机制监视高阶特征交互和低阶特征交互对于点击率预测的不同贡献;
所述预测层预测用户是否点击候选项,最终完成向用户推荐项目。
上述技术方案不仅考虑了高阶特征交互,还考虑了低阶特征交互,而且不需要特征工程。此外,我们还根据用户的历史行为计算用户的兴趣,以提高预测精度。技术上,本技术方案提出了一个层次注意力模型,可以提高点击率预测的准确性;还提出了一个特征交互提取器来学习高阶特征交互和低阶特征交互,以提高特征提取的准确性。
相比较于现有技术,本技术方案的有益效果如下:
第一、提出了一种层次注意力机制。该机制用于挖掘用户和项目特征(包括组合特征)中包含的辅助信息,并从局部和全局两个角度探讨它们对推荐结果的不同贡献。首先,该机制从局部的角度自适应地计算用户的兴趣表示根据历史行为和候选广告。其次,该机制从全局的角度通过基于线性的全局注意力机制使高阶特征交互和低阶特征交互发挥不同的作用。提出的层次注意力机制增加了对模型的解释,克服了传统点击率预测模型数据稀疏、冷启动的缺陷,大大提高了点击率预测的效率和准确性。
第二、鉴于高阶特征交互和低阶特征交互在点击率预测中都能发挥重要作用,提出了一种特征交互提取模块。在该模块中,采用因子分解机来捕获低阶特征交互,多层感知器捕获高阶特征交互。此外,这个模块不需要特征工程。因此,该模块缓解了只考虑高阶特征交互或低阶特征交互以及需要特征工程的问题。最后,该模块显著提高了特征提取的精度。
第三、在亚马逊数据集上进行了对点击率预测任务的实验结果表明,该技术方案不仅在点击率预测任务中优于现有技术,而且具有良好的模型解释能力。
附图说明
图1是本公开一个实施例中所提供的一种推荐方法的流程图;
图2是本公开一个实施例中所提供的一种推荐系统的框架图;
图3是本公开一个实施例中高阶和低阶特征交互不同权重的性能对比图;
图4是本公开一个实施例中冷启动用户组的实验结果对比图;
图5是本公开一个实施例中重度用户的实验结果对比图;
图6(a)是本公开一个实施例中激活函数sigmoid和relu对比图;
图6(b)是本公开一个实施例中激活函数sigmoid和tanh对比图。
具体实施方式
参看图1,在一个实施例中,公开了提供了一种推荐方法,包括如下步骤:
S100:将原始数据转化为数值数据,将大规模稀疏特征转化为低维密集特征;
S200:获得用户的兴趣表示;
S300:分别提取用户和项目的高阶特征交互和低阶特征交互,基于线性的全局注意力机制监视高阶特征交互和低阶特征交互对于点击率预测的不同贡献;
S400:预测用户是否点击候选项,最终完成向用户推荐项目。
就该实施例而言,本公开提出的一种基于层次注意力的多层感知器和因子分解机的推荐方法及系统(AMLP-FM),它既考虑低阶和高阶特征交互,又不需要特征工程。同时考虑到用户历史行为中包含的一些有用信息,捕捉用户行为数据背后潜在的用户兴趣,提高点击率预测的效率和准确性,提高模型的可解释性。首先,从局部到全局的角度,提出了一个层次注意力模型,以自适应地获取用户的兴趣,并探索全体特征对点击率预测的不同贡献。然后,考虑到高阶特征交互和低阶特征交互对点击率预测都有贡献,提出了一种特征交互提取器层,将因子分解机(FM)和多层感知器(MLP)结合起来,其中,FM提取低阶特征交互,MLP提取高阶特征交互。
在另一个实施例中,步骤S100进一步包括,
S101:采用独热编码对原始数据进行向量化;
S201:通过建立一个映射函数,将高维稀疏向量映射成低维稠密向量。
就该实施例而言,由于神经网络无法处理字符、值等数据,因此有必要将原始数据转换为神经网络可以处理的数值数据。因此,本方法采用独热编码对原始数据进行向量化。例如,用户历史记录行为ZH=[H1,H2,H3...HN]∈RS×N共有S个独热向量,假如在第N次行为中点击了第i个商品,那么HN可以表示成:
其中HN∈R1×S表示嵌入向量,然后,我们建立一个映射函数,将高维稀疏向量降维为低维密集表示。特征向量化层的映射关系表示为:
其中是特征向量化层中HN对应的权重矩阵,d是嵌入向量的特征维数,/>是用户第N次历史行为中点击第i个商品映射后的值。用户的历史行为/>根据公式一用户特征,广告,上下文也都转换成独热向量ZF,ZI,ZC,根据公式二ZF,ZI,ZC经过特征向量化层映射成低维稠密向量。
通过以上处理,我们得到了用户特征rF、用户行为rH、广告rI和上下文rC的特征向量。
在另一个实施例中,在我们的点击率预测模型中,我们使用了四类特征:用户特征,用户行为,广告和上下文。一般来说,用户特征的字段有性别、年龄等;用户行为字段是用户访问的商品id列表;广告的字段是广告的id,商店id等等;上下文的字段是类型id、时间等。每个字段的特征可以编码成一个独热向量。从用户特征、用户行为、广告和上下文四个方面的独热向量分别表示为zF,zH,zI,zC。在顺序点击率模型中,每个字段显然都包含一个行为列表,例如,用户的每个历史行为都对应一个独热向量,可以表示为:
ZH=[H1,H2,H3...HN]∈RS×N (3)
其中HN∈{0,1}S编码为独热向量,表示第n次行为,N为用户历史行为数量,S为用户可以点击的广告总数。
我们如何利用这一特征进行点击率预测?根据上述定义,可以将问题形式化为:
因此我们的目标是找到一个模型,我们输入特征组合x,x={zF,zH,zI,zC},在约束条件下,输出点击率根据真实标签y的值使得模型损失最小化。f()为预测函数。
在另一个实施例中,步骤S200进一步包括,
采用局部注意力机制来学习用户的兴趣表示。
就该实施例而言,在大多数非搜索广告系统中,用户并不直接表达自己的意图。设计模型,从用户的历史行为中获取用户的兴趣,对于提高点击率预测的性能非常重要。例如,一个年轻的女孩访问电子商务网站,她发现显示的手机外壳,并点击它。我们认为显示的广告符合她浏览手机的历史行为的相关兴趣。然而,不同的用户历史行为会在用户兴趣的表达中起到不同的作用。注意机制起源于神经机器翻译,它只关注与目标词生成相关的信息。我们使用注意力机制来解决这一问题。
在这一层中,我们提出了局部注意机制来学习用户兴趣表示。如图2所示,将其应用于用户行为和广告,在给定候选广告I的情况下,自适应地计算出用户的兴趣表示rU,可以表示为:
其中g是注意力机制函数,代表用户U的历史行为的嵌入向量列表,长度为N,rI是广告I的词嵌入向量。ai为对用户每个历史行为的权重。a()为是一个含有一层隐含层的MLP,输出权值。它可以表示为:
其中σ和Relu是激活函数。表示激活单元Relu的权重矩阵,/>表示激活单元sigmoid。f1为激活单位Relu中隐含层的神经单元数。d为嵌入向量的特征维数。这样,不同的历史行为是根据候选人广告加权。然后得到用户的兴趣表示rU。
在另一个实施例中,步骤S300进一步包括:
S301:利用三层感知器来捕获用户和项目的高阶特征交互;
S302:利用因子分解机组件来捕获用户和项目的低阶特征交互;
S303:利用基于线性的全局注意力机制使所述用户和项目的高阶特征交互和低阶特征交互发挥不同的作用。
就该实施例而言,隐式特征交互背后有很多有价值的信息,可以用于点击率预测。为了更好地挖掘有价值的信息,我们的目标是同时提取高阶和低阶特征交互。该层由多层感知器、因子分解机和线性加权连接层三部分组成。利用三层感知器来捕获高阶特征交互,利用因子分解机组件捕获低阶特征交互,利用线性加权连接层使高阶特征交互和低阶特征交互发挥不同的作用。
低阶特征交互作用对点击率预测同样很重要。因子分解机是为协同推荐而提出的。该方法不仅可以捕获特征之间的线性特征交互,而且可以将特征交互成对地建模为各自特征潜在向量的内积。在我们的模型中,我们引入因子分解机来学习低阶特征交互,与多层感知器共享相同的输入。因子分解机的输出可以表示为:
其中,Wi表示第i个特征的权重,Wij表示交叉特征titj的权重,vi∈Rd表示特征i的嵌入向量,k表示特征嵌入向量的维度。
我们通过多层感知器和因子分解机组件学习了高阶和低阶特征交互。考虑到高阶和低阶特征交互在点击率预测中的作用不同,从全局的角度,提出了基于线性的全局注意力机制监测。基于线性的全局注意力机制是一个简单的线性模块,可以节省计算时间。同时,也取得了良好的效果。基于线性的全局注意力机制的输出可以表示为:
v=wFMyFM+wMLPo3 (8)
其中wFM∈R是低阶特征交互的权重,wMLP∈R是高阶特征交互的权重。
在另一个实施例中,步骤S301进一步包括:
所述三层感知器是三层全连接层网络,包括输入层、隐层和输出层。
就该实施例而言,高阶特征交互作用对点击率预测模型的良好性能至关重要。为了捕获非线性的高阶特征交互,我们使用了多层感知器组件。本模块采用了三层全连接层网络,包括输入层、隐层和输出层。
形式上,全连接层的定义如下:
o1=(tW1+b1);
o2=(o1W2+b2);
o3=o2W3+b3; (9)
其中t=[rF,rU,rI,rC]=[t1,t2,t3,t4]表示用户特征的嵌入向量、用户兴趣表示的嵌入向量、候选广告的嵌入向量、内容的嵌入向量。分别为输入层、隐含层和输出层的输出。/>分别是多层感知器的权重矩阵。/>分别为输入层、隐含层、输出层的偏置向量。l1,l2,l3分别为输入层,隐含层,输出层的神经单元数。我们使用sigmoid作为激活函数。
经过以上处理,我们得到了高阶特征交互。
在另一个实施例中,一种推荐系统,包括特征向量化层、兴趣提取层、特征提取层和预测层;其中,
所述特征向量化层将原始数据转化为数值数据,将大规模稀疏特征转化为低维密集特征
所述兴趣提取层获得用户的兴趣表示;
所述特征提取层分别提取用户和项目的高阶特征交互和低阶特征交互,基于线性的全局注意力机制监视高阶特征交互和低阶特征交互对于点击率预测的不同贡献;
所述预测层预测用户是否点击候选项,最终完成向用户推荐项目。
在另一个实施例中,所述特征向量化层进一步包括,
用于采用独热编码对原始数据进行向量化的装置;
用于通过建立一个映射函数,将高维二值向量映射成低维稠密向量的装置。
在另一个实施例中,所述兴趣提取层进一步包括,
用于采用局部注意力机制来学习用户的兴趣表示的装置。
在另一个实施例中,所述特征提取层进一步包括:
用于利用三层感知器来捕获用户和项目的高阶特征交互的装置;
用于利用因子分解机组件来捕获用户和项目的低阶特征交互的装置;
用于利用基于线性的全局注意力机制使所述用户和项目的高阶特征交互和低阶特征交互发挥不同的作用的装置。
在另一个实施例中,其中,所述三层感知器是三层全连接层网络,包括输入层、隐层和输出层。
在另一个实施例中,本公开提出了一种推荐系统,包括特征向量化层、兴趣提取层、特征提取层和预测层;其中,
所述特征向量化层将原始数据转化为数值数据,将大规模稀疏特征转化为低维密集特征
所述兴趣提取层获得用户的兴趣表示;
所述特征提取层分别提取用户和项目的高阶特征交互和低阶特征交互,基于线性的全局注意力机制监视高阶特征交互和低阶特征交互对于点击率预测的不同贡献;
所述预测层预测用户是否点击候选项,最终完成向用户推荐项目。
在另一个实施例中,所述特征向量化层进一步包括,
用于采用独热编码对原始数据进行向量化的装置;
用于通过建立一个映射函数,将高维稀疏向量映射成低维稠密向量的装置。
在另一个实施例中,所述兴趣提取层进一步包括,
用于采用局部注意力机制来学习用户的兴趣表示的装置。
在另一个实施例中,所述特征提取层进一步包括:
用于利用三层感知器来捕获用户和项目的高阶特征交互的装置;
用于利用因子分解机组件来捕获用户和项目的低阶特征交互的装置;
用于利用基于线性的全局注意力机制使所述用户和项目的高阶特征交互和低阶特征交互发挥不同的作用的装置。
在另一个实施例中,其中,所述三层感知器是三层全连接层网络,包括输入层、隐层和输出层。在另一个实施例中,给出了本方法进行试验的数据集和参数设置。本方法使用的亚马逊数据集包含来自亚马逊的产品评论和元数据,作为点击率预测的基准数据集,我们对一个名为电子产品的子集进行了实验,它包含192,403个用户、63,001个商品条目、801个商品类别和1,689,188个点击行为记录。每个用户或项目在数据集中有超过5次点击,特征包括项目id,种类id,用户浏览过的商品列表id,种类列表id。令用户的所有行为为(H1,H2,...,HK,...,HN)任务是利用前k个被评审的商品预测第(k+1)个被评审的商品。我们用K=1,2,...n-2来生成训练集对于每个用户,在测试集,我们预测最后一个给定第n-1个商品。
我们通过重复计算来确定每个算法的最优超参数测验。对于所有模型,我们使用随机梯度下降(SGD)作为优化器。我们还建立了学习率的自动衰减机制,随着训练的迭代,学习率从1逐渐降低衰减速率设置为0.1,训练中的批大小设置为32。本文模型的嵌入尺寸设置为128,这与其他方法的是一致的。MLP神经网络的层数是3,而每层的单元数是80,40,1。
在另一个实施例中,给出了本方法进行试验的评估指标和基准。在点击率预测领域,ROC曲线下面积(Area Under the ROC Curve,AUC)是一个广泛使用的度量。它通过对预测点击的排序来衡量广告的顺序在中引入了一种用户加权AUC的变化,它通过平均用户的AUC来衡量用户内部的优缺点,并且被证明与显示广告系统中的在线性能更为相关。我们在实验中使用了这个指数。我们也将其称为GAUC:
其中n是用户数,wi和AUCi是与第i个用户对应的曝光次数和AUC。
此外,我们还引入了RelaImpr度量来衡量相对于模型的改进。对于随机猜测,GAUC的值是0.5。因此,RelaImpr定义为
我们将提出的模型与现有的五种点击率预测模型进行了比较。
LR:在深度网络预测CTR预测任务之前,Logistic回归(Logistic regression,LR)是一种广泛应用的浅层模型
BaseModel:BaseModel是一种深度学习模型范式,它遵循了用于预测点击率的embedding&mlp架构,是最基础的预测点击率的模型。
PNN:PNN可以看作是BaseModel的一个改进版本,它在嵌入层之后引入一个产品层来捕获高阶特征交互
Wide&Deep:Wide&Deep模型由两部分组成,一部分是wide部分,处理人工设计的叉乘特征,一部分是Deep部分,自动提取特征之间的非线性关系,等于基本模型
DIN:深度兴趣网络(Deep interest network,DIN)是在阿里巴巴的在线广告系统中发展起来的,它代表了用户多样化的兴趣。DIN还构建了一个基于用户偏好的网络,来分配表示广告相似性的值。
在另一个实施例中,给出了本方法进行试验的性能评估结果。
我们进行了一系列实验,探讨了线性加权连接层中wFM和wMLP的不同权重对高阶特征交互作用和低阶特征交互作用在点击率预测中发挥不同作用的影响。在实验中,我们使wFM和wMLP之和为1。如图3所示,wMLP从0到1,因此wFM从1到0。当WMLP为1时,AMLP-FM模型等于DIN。我们对AMLP-FM的每个wFMwFM值进行了5次实验,得到GAUCs的平均值。如图3所示,当wMLP=0.9,wFM=0.1时,GAUC取最大值。
本文考虑了推荐系统在应用场景上的差异。我们从三个不同的组中提取测试数据:整体数据集、冷启动用户组和重用户组。其中,整体数据集为数据集中的所有数据;冷启动用户组为1-5的历史行为的用户数据;重度用户组为23个以上的历史行为的用户数据。具体实验结果如下:表2显示了在整体数据集上的预测性能。
表2
所有实验重复5次,得出平均结果。我们有以下几点看法:所有的深度网络都明显优于LR,这确实证明了深度学习的力量。Wide&Deep模型和PNN模型的GAUC是近似的。这是由于他们的网络结构在BaseModel的基础上进行了轻微的调整。结果表明,良好的网络结构确实可以提高传统DNN模型的点击率预测性能。结果表明,DIN和AMLP-FM得到了较好的改善。DIN和AMLP-FM的共同结构是局部注意机制,DIN和AMLP-FM的突出可能与注意机制有关。
我们观察到,AMLP-FM模型在GAUC上分别比LR、BaseModel、Wide&Deep模型、PNN、DIN高10.45%、4.79%、4.68%、4.15%和1.84%,在RelaImpr上分别高34.15%、13.21%、12.86%、11.24%和4.69%。这是因为我们不仅提出了一种层次注意力机制来计算用户的兴趣,使特征交互发挥不同的作用,而且我们还提取了高阶和低阶特征交互来进行CTR预测。实验结果表明,我们的模型比最先进的模型好。
图4显示了冷启动用户的对比实验结果。实验结果表明,随着用户历史行为数据的减少,各种方法的推荐精度相应下降,Wide&Deep模型的推荐精度显著下降。然而,AMLP-FM方法保持了最好的推荐性能。可以看出,与其他模型相比,我们提出的层次注意力机制能够更好地处理过拟合问题,因此AMLP-FM具有更高的稳定性,能够更好地缓解冷启动问题。
图5显示了重度用户组的对比实验结果。实验结果表明,随着数据量的减少,各种方法的推荐精度也相应降低。然而,AMLP-FM方法保持最好的推荐性能。
在本方法中,我们比较了应用sigmoid、relu和tanh的深度模型的性能。如图6(a)和图6(b)所示,对于所有的深度模型,sigmoid都比tanh和relu更合适。因此,我们在论文中应用了sigmoid激活函数。
在另一个实施例中,给出了因子分解机和层次注意力模型的效果。
表3给出了不同方法的CTR预测结果。与BaseModel相比,BaseModel+FM有明显的改进。FM分解机不仅可以捕捉特征之间的线性相互作用,而且可以将特征之间的相互作用建模为各自特征潜在向量的内积。与BaseModel相比,发现BaseModel捕获的高阶特征交互作用在CTR预测中发挥一定作用,低阶特征交互作用在CTR预测中也发挥一定作用。
表3
在此基础上,进一步探讨了层次注意力模型的效果。如表3所示,AMLP-FM比BaseModel、BaseModel+FM、BaseModel+local attention机制性能分别高出4.79%、4.2%、1.84%。因此,我们发现层次注意力模型可以带来很大的改进。首先,利用局部注意机制模型,根据候选广告自适应计算用户的兴趣表示,不仅提高了CTR预测的效率和准确性,而且提高了模型的可解释性。其次,考虑到多层感知器捕获的高阶特征交互和因子分解机捕获的低阶特征交互在CTR预测中发挥不同的作用,我们采用基于线性的全局注意机制来区分它们的不同重要性。因此,我们提出的方法取得了显著的性能改进。
为了克服现有模型的不足,获得更好的性能,我们提出了一种基于层次注意力的多层感知器和因子分解机的推荐算法(AMLP-FM)。它主要包括以下优点:1.它不需要特征工程2.同时学习低阶特征交互和高阶特征交互。考虑到低阶特征交互和高阶特征交互在点击率预测中扮演着不同的角色,我们引入了分层注意机制3.它根据用户的历史行为来探索用户的兴趣,从而更有效地预测点击率。我们在亚马逊数据集上进行了大量实验,将我们的模型与最先进的CTR预测模型。实验结果表明,该模型在GAUC和RelaImpr方面均优于现有模型。
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。
Claims (4)
1.一种推荐方法,包括如下步骤:
S100:将原始数据转化为数值数据,将大规模稀疏特征转化为低维密集特征;
S200:获得用户的兴趣表示;
S300:分别提取用户和项目的高阶特征交互和低阶特征交互,基于线性的全局注意力机制监视高阶特征交互和低阶特征交互对于点击率预测的不同贡献;
S400:预测用户是否点击候选项,最终完成向用户推荐项目;
步骤S100进一步包括,
S101:采用独热编码对原始数据进行向量化;
S201:通过建立一个映射函数,将高维稀疏向量映射成低维稠密向量;其中,
该方法使用了四类特征:用户特征,用户行为,广告和上下文,用户特征的字段有性别、年龄;用户行为字段是用户访问的商品id列表;广告的字段是广告的id,商店id;上下文的字段是类型id、时间;每个字段的特征编码成一个独热向量,从用户特征、用户行为、广告和上下文四个方面的独热向量分别表示为ZF,ZH,ZI,ZC;其中,
用户历史记录行为共有S个独热向量,S为用户可以点击的广告总数;
假如在第N次行为中点击了第i个商品,那么HN表示成:
,
其中表示嵌入向量,然后,建立一个映射函数,将高维稀疏向量降维为低维密集表示,特征向量化层的映射关系表示为:
,
其中是特征向量化层中HN对应的权重矩阵,d是嵌入向量的特征维数,/>是用户第N次历史行为中点击第i个商品映射后的值,
用户的历史行为;
用户特征,广告,上下文也都转换成独热向量ZF、ZI、ZC,ZF、ZI、ZC经过特征向量化层映射成低维稠密向量;
通过以上处理,得到了用户特征、用户行为/>、广告/>和上下文/>的特征向量;
根据上述定义,将问题形式化为:
,
目标是找到一个模型,输入特征组合x,x={ZF,ZH,ZI,ZC},在约束条件下,输出点击率,根据真实标签y的值使得模型损失最小化,f()为预测函数;
步骤S200进一步包括,
采用局部注意力机制来学习用户的兴趣表示;其中,
在给定候选广告I的情况下,自适应地计算出用户的兴趣表示,表示为:
,
其中g是注意力机制函数,代表用户U的历史行为的嵌入向量列表,长度为N;/>是广告I的词嵌入向量,/>为对用户每个历史行为的权重;/>是一个含有一层隐含层的MLP,输出权值,表示为:
,
其中和/>是激活函数,
表示激活函数/>的权重矩阵,/>表示激活函数sigmoid,/>为激活函数/>中隐含层的神经单元数,d为嵌入向量的特征维数;
这样,不同的历史行为是根据候选广告加权,然后得到用户的兴趣表示;
步骤S300进一步包括:
S301:利用三层感知器来捕获用户和项目的高阶特征交互;
S302:利用因子分解机组件来捕获用户和项目的低阶特征交互;
S303:利用基于线性的全局注意力机制使所述用户和项目的高阶特征交互和低阶特征交互发挥不同的作用;
该方法不仅捕获特征之间的线性特征交互,而且将特征交互成对地建模为各自特征潜在向量的内积,在模型中,引入因子分解机来学习低阶特征交互,与多层感知器共享相同的输入,因子分解机的输出表示为:
,
其中,表示第i个特征的权重,
表示交叉特征/>的权重,/>,
表示特征i的嵌入向量,d表示特征嵌入向量的维度,
通过多层感知器和因子分解机组件学习了高阶和低阶特征交互,考虑到高阶和低阶特征交互在点击率预测中的作用不同,从全局的角度,提出基于线性的全局注意力机制监测,基于线性的全局注意力机制是一个简单的线性模块,节省计算时间,同时,也取得了良好的效果,基于线性的全局注意力机制的输出表示为:
,
其中是低阶特征交互的权重,/>是高阶特征交互的权重。
2.根据权利要求1所述的方法,步骤S301进一步包括:
所述三层感知器是三层全连接层网络,包括输入层、隐层和输出层。
3.一种推荐系统,包括特征向量化层、兴趣提取层、特征提取层和预测层;其中,
所述特征向量化层将原始数据转化为数值数据,将大规模稀疏特征转化为低维密集特征;
所述兴趣提取层获得用户的兴趣表示;
所述特征提取层分别提取用户和项目的高阶特征交互和低阶特征交互,基于线性的全局注意力机制监视高阶特征交互和低阶特征交互对于点击率预测的不同贡献;
所述预测层预测用户是否点击候选项,最终完成向用户推荐项目;
所述特征向量化层进一步包括,
用于采用独热编码对原始数据进行向量化的装置;
用于通过建立一个映射函数,将高维稀疏向量映射成低维稠密向量的装置;其中,
该系统使用了四类特征:用户特征,用户行为,广告和上下文,用户特征的字段有性别、年龄;用户行为字段是用户访问的商品id列表;广告的字段是广告的id,商店id;上下文的字段是类型id、时间;每个字段的特征编码成一个独热向量,从用户特征、用户行为、广告和上下文四个方面的独热向量分别表示为ZF,ZH,ZI,ZC;其中,
用户历史记录行为共有S个独热向量,S为用户可以点击的广告总数;
假如在第N次行为中点击了第i个商品,那么HN表示成:
,
其中表示嵌入向量,然后,建立一个映射函数,将高维稀疏向量降维为低维密集表示,特征向量化层的映射关系表示为:
,
其中是特征向量化层中HN对应的权重矩阵,d是嵌入向量的特征维数,/>是用户第N次历史行为中点击第i个商品映射后的值,
用户的历史行为;
用户特征,广告,上下文也都转换成独热向量ZF、ZI、ZC,ZF、ZI、ZC经过特征向量化层映射成低维稠密向量;
通过以上处理,得到了用户特征、用户行为/>、广告/>和上下文/>的特征向量;
根据上述定义,将问题形式化为:
,
目标是找到一个模型,输入特征组合x,x={ZF,ZH,ZI,ZC},在约束条件下,输出点击率,根据真实标签y的值使得模型损失最小化,f()为预测函数;
所述兴趣提取层进一步包括,
用于采用局部注意力机制来学习用户的兴趣表示的装置;其中,
在给定候选广告I的情况下,自适应地计算出用户的兴趣表示,表示为:
,
其中g是注意力机制函数,代表用户U的历史行为的嵌入向量列表,长度为N;/>是广告I的词嵌入向量,/>为对用户每个历史行为的权重;/>是一个含有一层隐含层的MLP,输出权值,表示为:
,
其中和/>是激活函数,
表示激活函数/>的权重矩阵,/>表示激活函数sigmoid,/>为激活函数/>中隐含层的神经单元数,d为嵌入向量的特征维数;
这样,不同的历史行为是根据候选广告加权,然后得到用户的兴趣表示;
所述特征提取层进一步包括:
用于利用三层感知器来捕获用户和项目的高阶特征交互的装置;
用于利用因子分解机组件来捕获用户和项目的低阶特征交互的装置;
用于利用基于线性的全局注意力机制使所述用户和项目的高阶特征交互和低阶特征交互发挥不同的作用的装置;
该系统不仅捕获特征之间的线性特征交互,而且将特征交互成对地建模为各自特征潜在向量的内积,在模型中,引入因子分解机来学习低阶特征交互,与多层感知器共享相同的输入,因子分解机的输出表示为:
,
其中,表示第i个特征的权重,
表示交叉特征/>的权重,/>,
表示特征i的嵌入向量,d表示特征嵌入向量的维度,
通过多层感知器和因子分解机组件学习了高阶和低阶特征交互,考虑到高阶和低阶特征交互在点击率预测中的作用不同,从全局的角度,提出基于线性的全局注意力机制监测,基于线性的全局注意力机制是一个简单的线性模块,节省计算时间,同时,也取得了良好的效果,基于线性的全局注意力机制的输出表示为:
,
其中是低阶特征交互的权重,/>是高阶特征交互的权重。
4.根据权利要求3所述的系统,其中,所述三层感知器是三层全连接层网络,包括输入层、隐层和输出层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010577298.8A CN111737578B (zh) | 2020-06-22 | 2020-06-22 | 一种推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010577298.8A CN111737578B (zh) | 2020-06-22 | 2020-06-22 | 一种推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737578A CN111737578A (zh) | 2020-10-02 |
CN111737578B true CN111737578B (zh) | 2024-04-02 |
Family
ID=72650467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010577298.8A Active CN111737578B (zh) | 2020-06-22 | 2020-06-22 | 一种推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737578B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407663B (zh) * | 2020-11-05 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
CN112328844A (zh) * | 2020-11-18 | 2021-02-05 | 恩亿科(北京)数据科技有限公司 | 一种处理多类型数据的方法及系统 |
CN112365319A (zh) * | 2020-11-20 | 2021-02-12 | 北京沃东天骏信息技术有限公司 | 虚拟资源内物品的展示方法和装置 |
CN112434184B (zh) * | 2020-12-15 | 2022-03-01 | 四川长虹电器股份有限公司 | 基于历史影视海报的深度兴趣网络的排序方法 |
CN112561599A (zh) * | 2020-12-24 | 2021-03-26 | 天津理工大学 | 一种融合域特征交互的基于注意力网络学习的点击率预测方法 |
CN112699271B (zh) * | 2021-01-08 | 2024-02-02 | 北京工业大学 | 一种提升用户视频网站留存时间的推荐方法 |
CN112800097A (zh) * | 2021-01-15 | 2021-05-14 | 稿定(厦门)科技有限公司 | 基于深度兴趣网络的专题推荐方法及装置 |
CN113327131A (zh) * | 2021-06-03 | 2021-08-31 | 太原理工大学 | 基于三支决策理论进行特征交互选择的点击率预估模型 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212711A1 (en) * | 2017-05-19 | 2018-11-22 | National University Of Singapore | Predictive analysis methods and systems |
CN109960759A (zh) * | 2019-03-22 | 2019-07-02 | 中山大学 | 基于深度神经网络的推荐系统点击率预测方法 |
CN110119467A (zh) * | 2019-05-14 | 2019-08-13 | 苏州大学 | 一种基于会话的项目推荐方法、装置、设备及存储介质 |
WO2020024319A1 (zh) * | 2018-08-01 | 2020-02-06 | 苏州大学张家港工业技术研究院 | 用于交通流量预测的卷积神经网络多点回归预测模型 |
CN110807156A (zh) * | 2019-10-23 | 2020-02-18 | 山东师范大学 | 一种基于用户序列点击行为的兴趣推荐方法及系统 |
CN111127142A (zh) * | 2019-12-16 | 2020-05-08 | 东北大学秦皇岛分校 | 一种基于广义神经注意力的物品推荐方法 |
CN111177579A (zh) * | 2019-12-17 | 2020-05-19 | 浙江大学 | 一种集成多样性增强的极深因子分解机模型及其构建方法和应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214543B (zh) * | 2017-06-30 | 2021-03-30 | 华为技术有限公司 | 数据处理方法及装置 |
-
2020
- 2020-06-22 CN CN202010577298.8A patent/CN111737578B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212711A1 (en) * | 2017-05-19 | 2018-11-22 | National University Of Singapore | Predictive analysis methods and systems |
WO2020024319A1 (zh) * | 2018-08-01 | 2020-02-06 | 苏州大学张家港工业技术研究院 | 用于交通流量预测的卷积神经网络多点回归预测模型 |
CN109960759A (zh) * | 2019-03-22 | 2019-07-02 | 中山大学 | 基于深度神经网络的推荐系统点击率预测方法 |
CN110119467A (zh) * | 2019-05-14 | 2019-08-13 | 苏州大学 | 一种基于会话的项目推荐方法、装置、设备及存储介质 |
CN110807156A (zh) * | 2019-10-23 | 2020-02-18 | 山东师范大学 | 一种基于用户序列点击行为的兴趣推荐方法及系统 |
CN111127142A (zh) * | 2019-12-16 | 2020-05-08 | 东北大学秦皇岛分校 | 一种基于广义神经注意力的物品推荐方法 |
CN111177579A (zh) * | 2019-12-17 | 2020-05-19 | 浙江大学 | 一种集成多样性增强的极深因子分解机模型及其构建方法和应用 |
Non-Patent Citations (2)
Title |
---|
基于注意力的深度协同在线学习资源推荐模型;冯金慧;陶宏才;;成都信息工程大学学报(02);全文 * |
点击预测的关键技术研究;陶竹林;宋格格;黄祥林;;中国传媒大学学报(自然科学版)(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111737578A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737578B (zh) | 一种推荐方法及系统 | |
Zhou et al. | Atrank: An attention-based user behavior modeling framework for recommendation | |
TWI612488B (zh) | 用於預測商品的市場需求的計算機裝置與方法 | |
CN111339415B (zh) | 一种基于多交互式注意力网络的点击率预测方法与装置 | |
CN111222332B (zh) | 一种结合注意力网络和用户情感的商品推荐方法 | |
CN111209386B (zh) | 一种基于深度学习的个性化文本推荐方法 | |
CN110781409B (zh) | 一种基于协同过滤的物品推荐方法 | |
CN111581520A (zh) | 基于会话中物品重要性的物品推荐方法和系统 | |
CN112487199B (zh) | 一种基于用户购买行为的用户特征预测方法 | |
CN110619540A (zh) | 一种神经网络的点击流预估方法 | |
CN111563770A (zh) | 一种基于特征差异化学习的点击率预估方法 | |
CN111695024A (zh) | 对象评估值的预测方法及系统、推荐方法及系统 | |
WO2024041483A1 (zh) | 一种推荐方法及相关装置 | |
Zou et al. | Deep field relation neural network for click-through rate prediction | |
Srilakshmi et al. | Two-stage system using item features for next-item recommendation | |
Hekmatfar et al. | Embedding ranking-oriented recommender system graphs | |
Wang et al. | Session-based recommendation with time-aware neural attention network | |
Xu et al. | Modeling and predicting user preferences with multiple item attributes for sequential recommendations | |
Cao et al. | Implicit user relationships across sessions enhanced graph for session-based recommendation | |
CN117557331A (zh) | 一种产品推荐方法、装置、计算机设备及存储介质 | |
CN116757747A (zh) | 基于行为序列和特征重要性的点击率预测方法 | |
Zhou et al. | Self-attention mechanism enhanced user interests modeling for personalized recommendation services in cyber-physical-social systems | |
Lu | Knowledge distillation-enhanced multitask framework for recommendation | |
CN115293812A (zh) | 一种基于长短期兴趣的电商平台会话感知推荐预测方法 | |
Anuradha et al. | Fuzzy based summarization of product reviews for better analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |