CN110083770A - 一种基于特征层面更深的自注意力网络的序列推荐方法 - Google Patents

一种基于特征层面更深的自注意力网络的序列推荐方法 Download PDF

Info

Publication number
CN110083770A
CN110083770A CN201910354632.0A CN201910354632A CN110083770A CN 110083770 A CN110083770 A CN 110083770A CN 201910354632 A CN201910354632 A CN 201910354632A CN 110083770 A CN110083770 A CN 110083770A
Authority
CN
China
Prior art keywords
article
attention
sequence
feature
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910354632.0A
Other languages
English (en)
Other versions
CN110083770B (zh
Inventor
鲜学丰
张婷婷
赵朋朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Vocational University
Original Assignee
Suzhou Vocational University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Vocational University filed Critical Suzhou Vocational University
Priority to CN201910354632.0A priority Critical patent/CN110083770B/zh
Publication of CN110083770A publication Critical patent/CN110083770A/zh
Application granted granted Critical
Publication of CN110083770B publication Critical patent/CN110083770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特征层面更深的自注意力网络的序列推荐方法,本发明提出一个基于特征层面更深的自注意力网络的序列推荐方法(FDSA)。具体来说,FDSA首先通过一个一般的注意力机制将物品的多种异构特征以不同的权重结合到特征序列。随后,FDSA在物品序列和特征序列运用独立的自注意力块分别去建模物品转换模式和特征转换模式。然后,我们结合这两个块的输出结果到一个全连接层来预测下一个物品。最后,大量的实验结果表明考虑物品的特征之间的转换关系能够明显地提高序列推荐的性能。

Description

一种基于特征层面更深的自注意力网络的序列推荐方法
技术领域
本发明涉及推荐技术领域,特别是一种基于特征层面更深的自注意力网络的序列推荐方法。
背景技术
随着互联网的快速发展,序列推荐已成为各种应用中不可或缺的一部分,例如,广告点击预测,产品推荐和网页推荐。在这些应用中,每个用户行为可以建模成一个按时间顺序的序列,他/她之后的行为受之前行为序列的影响。序列推荐的目的是通过从用户历史行为中捕获有用的序列模式,从而给用户推荐他/她可能喜欢的下一个物品。
现存的序列方法大多集中在基于马尔科夫链的方法和基于神经网络的方法。为了建模序列模式,Rendle等人提出了FPMC(Factorizing Personalized Markov Chain),融合矩阵分解和马尔科夫链分别去捕获用户的长期偏好和短期的物品与物品之间的转换。Cheng等人扩展了FPMC,将个性化的马尔科夫链和用户行为约束嵌入到下一个推荐中。然而,所有这些基于马尔科夫链的方法都有一个相同的缺点,即这些模型仅能建模每两个相邻物品之间的局部序列模式。随着神经网络的成功,循环神经网络(RNN)被广泛应用于序列建模。Hidasi等人提出GRU4Rec方法,使用门控循环单元(GRU)去建模物品之间的转换模式。虽然RNN是一个建模序列模式的有效方法,但是它仍然面临几个挑战,例如,很难并行,耗时,即使使用LSTM和GRU也很难保存长期偏好。最近,Tang等人提出一个基于CNN的模式,它将用户最近访问的L个物品看作一张图片,然后使用水平方向和垂直方向的卷积核去提取序列模式。另外,CNN通常被用于捕获局部信息,因此很难捕获用户的长期偏好。随着Vaswani等人提出的自注意力机制(self-attention mechanism)在机器翻译方面获得突出的实验结果,许多研究者开始着力于将自注意力机制应用于其他领域,例如自然语言推荐,智能问答,推荐等等。自注意力机制一个最大的优点是能够通过计算一个序列中不同物品对之间的权重来更好地获得用户的长期偏好。Kang等人提出SASRec(Self-AttentiveSequential Recommendation)模式,利用一个自注意力机制代替传统的RNN来做序列推荐,获得杰出的性能。然而,上述推荐方法都仅考虑了物品之间的序列模式,但是忽略了有利于捕获用户细粒度偏好的特征之间的序列转换关系。
事实上,我们的日常生活通常表现出物品的特征层面的转换模式,即,显式特征(如,类型)或者其他的隐式特征。例如,一个用户买完衣服之后可能会要买匹配衣服的鞋子,这个暗示了下一个产品的类别与当前产品的类别是高度相关的。在这里,我们将用户对结构属性(例如,类型)不断变化的喜好称作显式特征转换。此外,每个物品可以又包含其他非结构的属性,像描述文本或者图片,它们体现出物品更多的细节特征。因此,我们想要从这些非结构化的属性中提取出用户潜在的特征模式,我们称这种为隐式特征转换。然而,现存的方法经常忽略了物品特征之间显示和隐式的特征转换,我们认为仅物品层面的序列不能揭示出完整的序列模式。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于特征层面更深的自注意力网络的序列推荐方法,本发明提出了一种特征层面自注意力网络,能够有效地捕获物品的特征之间的转换关系,来提高序列推荐性能。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于特征层面更深的自注意力网络的序列推荐方法,构建基于特征层面更深的自注意力网络FDSA模型,通过FDSA模型捕获物品的特征之间的转换关系,来提高序列推荐性能;FDSA模型包括嵌入层、Vanilla注意力层、基于物品的自注意力块、基于特征的自注意力块和全连接层;其中,
嵌入层,用于投射物品的稀疏表示和物品的离散化的特征到低维的稠密向量,输出物品序列和物品的多种异构特征;物品序列输出至基于物品的自注意力块,物品的多种异构特征输出至Vanilla注意力层;
Vanilla注意力层,用于通过注意力机制将物品的多种异构特征以不同的权重结合到特征序列;
基于物品的自注意力块,用于根据物品序列去学习物品层面的序列模式;
基于特征的自注意力块,用于根据特征序列去捕获特征层面的序列模式;
全连接层,用于结合基于物品的自注意力块和基于特征的自注意力块的输出结果来预测给用户推荐的下一个物品。
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,嵌入层用于去转换行为序列s和其对应的类别序列c的one-hot向量到稠密向量表示;其中,
从用户历史行为序列中取一个固定长度的序列s=(s1,s2,…,sn)来计算用户历史偏好,其中n代表模式处理的最大长度;如果一个用户的行为序列小于n,在序列的左边使用0来填充序列直到序列的长度达到n;如果一个用户的行为序列大于n,取最近的n个行为;每一个物品对应着一个类别,得到一个固定长度的类别序列c=(c1,c2,…,cn);其中,sv为用户第v时刻访问的物品,cv为用户第v时刻访问的物品对应的类别特征,v=1,2,3...n。
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,Vanilla注意力层,用于采用一个Vanilla注意力机制去辅助基于特征的自注意力块捕获用户对属性不断变化的喜好;
给定一个物品j,它的属性能被编码为其中,vec(cj)和vec(bj)分别表示物品j的类别和品牌的稠密向量表示,表示物品j的文本特征表示;
注意力网络αj被定义为:
αj=softmax(WfAj+bf) (1)
其中,Wf是d×d的矩阵,bf是d-维的向量,d是向量的维度,softmax(*)是归一化指数函数;
通过注意力评分来计算物品j的属性向量表示的加权和;
fj=αjAj (2)
fj为物品j的特征表示。
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,基于特征的自注意力块:
从vanilla注意力层,能得到物品j的特征表示fj;因此,给定一个用户,能得到一个特征序列f={f1,f2,...,fn},fv为用户在第v时刻访问的物品对应的特征的特征向量表示;在特征的输入表示上加入位置矩阵 为二维矩阵空间,维度为n×d;即这个基于特征的自注意力块的输入矩阵F被定义为
其中,Pv为用户第v时刻访问的物品的位置向量表示;
自注意力机制SDPA(Q,K,V)被定义为
其中Q,K,V分别表示query,key和value,query是查询,key是键,value是键对应的值,上标T是转置,d表示向量的维度;在基于特征自注意力机制块query,key和value都等于F,将它们通过三个不同的投射矩阵线性转换之后,喂到缩放点积注意力SDPA中,
Hf=SDPA(FWQ,FWK,FWv)(5)
其中WQ,WK是投射矩阵,Hf是经过缩放点积注意力SDPA得到的结果,是二维矩阵空间,维度为d×d;这个自注意力机制采用多头注意力机制MH,这个多头注意力机制能够被定义为
其中Wo是要学习的参数,lf是基于特征自注意力机制设置的头数,Mf是经过多头注意力机制MH之后得到的结果,MH(F)是多头注意力机制,Concat()是向量连接函数,hi是第i头对应缩放点积注意力SDPA的结果,SDPA()是缩放点积注意力,i=1,2...lf;除此之外,这个自注意力机制运用了残差连接,层正则化和激活函数为ReLU的两层全连接去增强自注意力机制的性能;最后,这个基于特征自注意力块的输出被定义为
其中,LayerNorm()是层正则化,Of是经过残差连接和层正则化之后的结果,ReLU()是非线性激活函数,W1、W2、b1、b2均是FDSA模型参数;定义整个自注意力块SAB()为
Of=SAB(F), (8)
Of是聚合了所有之前访问过的物品的特征表示,SAB()是整个自注意力块;
当自注意机制堆叠q块之后,
其中,是基于特征自注意力块堆叠q块之后的结果,当q为0时,
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,基于物品的自注意力块:
给定一个用户,能够得到一个物品序列s以及它对应的矩阵S;这个堆叠的基于物品自注意力块被构造为
其中,是基于物品自注意力块堆叠q块之后的结果,当q为0时,
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,为了同时捕获物品和特征的转换模式,连接基于物品的自注意力块的输出结果和基于特征的自注意力块的输出结果然后投射到全连接层;
其中Osf是将两个自注意力块结合之后经过全连接层得到的结果,Wsf是全连接层的权重矩阵,bsf是全连接层的偏置向量,是二维空间,维度为2d×d,是一维空间,维度是d;通过点积操作计算用户对物品的偏好;
其中,表示Osf的第t行,N是物品的嵌入矩阵,Nj表示矩阵N中第j行对应的向量,也就是第j时刻用户访问物品的向量表示;是给定用户之前访问的t个物品,物品j是用户下一个要访问的物品的概率;
在测试过程中,取矩阵Osf的最后一行来预测下一个物品。
作为本发明所述的一种基于特征层面更深的自注意力网络的序列推荐方法进一步优化方案,采用交叉熵损失函数作为FDSA模型的优化目标函数。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明提出了一种新颖的基于特征层面更深的自注意力网络(FDSA),能够有效地捕获物品的特征之间的转换关系,来提高序列推荐性能;
(2)本发明表明考虑物品的特征之间的转换关系能够明显地提高序列推荐的性能。
附图说明
图1是FDSA的框架图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本发明提出一个新颖的特征层面的自注意力机制来做序列推荐。为了捕获显式转换模式,与那些将物品表示与其特征表示结合的方法不同,我们在物品序列和特征序列上运用独立的自注意力机制,分别去提取物品之间和特征之间的关系。之后,我们结合物品层面的上下文和特征层面的上下文来预测下一个物品。此外,我们进一步研究如何从物品的异构属性中学习有意义的隐式的特征转换模式。我们额外地添加一个Vanilla注意力机制辅助基于特征的自注意力机制从物品的多样的属性中自适应地挑选重要的特征,并进一步学习潜在的隐式特征转换模式。然后,我们结合这两个块的输出结果到一个全连接层来预测下一个物品。
1、问题定义
我们让表示N个用户的集合,表示M个物品的集合。我们使用表示用户之前访问的按时间排序的一个行为序列,其中sj是第j时刻用户访问的物品,是物品的集合。每一个物品j有一些属性,例如,文本描述,类别和品牌。这里我们以物品的类别为例,物品j的类型被表示为cj,其中 是类别的集合。序列推荐的目的是给定用户的历史行为序列,预测用户可能访问的下一个物品。
基于以上背景描述,本发明提出了一种新颖的基于特征层面更深的自注意力网络(FDSA),能够有效地捕获物品的特征之间的转换关系,来提高序列推荐性能。本发明的主要贡献有以下几点:1)我们提出一个新颖的框架,特征层面更深的自注意力网络(FDSA)来做序列推荐。FDSA利用自注意力网络结合物品转换模式和特征转换模式去建模用户序列意图。2)通过在物品序列和特征序列运用不同的自注意力块去建模显式和隐式特征转换。此外,为了获得隐式特征转换,一个Vanilla注意力机制被增加去辅助基于特征的自注意力块从物品的多样的特征中去自适应地选择重要的特征。3)我们在两个真实的数据集上进行大量的实验,证明了我们提出方法的有效性。
1、我们提出的模型
正如我们之前提到的,人类日常活动经常表现出特征层面的转换模式。因此,本发明提出了一种新颖的基于特征层面更深的自注意力网络(FDSA),不仅能够学习物品层面的转换模式,而且能够建模特征层面的转换模式。如图1所示,FDSA由五部分组成,即,嵌入层,Vanilla注意力层,基于物品的自注意力块,基于特征的自注意力块和全连接层。具体地,我们首先投射物品的稀疏表示和物品的离散化的特征(即,one-hot编码)到低维的稠密向量。对于物品的文本特征,我们利用一个主题模型去提取这些文本的主题关键词,然后利用Word2Vector模型去获得这些关键词的词向量表示。由于物品的特征通常是异构的,并且来自不同的领域。因此,我们利用一个一般的注意力机制辅助基于特征的自注意力机制从物品的异构属性中自适应的选择重要的特征。随后,通过两个自注意力块,用户的序列模式能够被学习,其中,基于物品的自注意力块被利用去学习物品层面的序列模式,基于特征的自注意力块被使用去捕获特征层面的序列模式。最后,我们结合着两个块的输出到一个全连接层去得到最后的预测。下面,我们详细介绍FDSA每一个部分的细节。
1)嵌入层
由于用户的行为属性是不固定的,我们从用户历史行为序列中取一个固定长度的序列s=(s1,s2,...,sn)来计算用户历史偏好,其中n代表我们模式处理的最大长度。如果一个用户的行为序列小于n,我们在序列的左边使用0来填充序列直到序列的长度达到n;如何一个用户的行为序列大于n,我们取最近的n个行为。此外,由于每一个物品对应着一个类别,我们能得到一个固定长度的类别序列c=(c1,c2,...,cn)。之后,我们利用一个嵌入层去转换行为序列s和其对应的类别序列c的one-hot向量到稠密向量表示。对于其他的类别型的特征(例如,品牌,商家),我们采用相同的方式处理。而对于文本型特征(例如,描述文本,物品的描述标题),我们首先利用广泛使用的主题模型提取文本的主题关键词,不久利用Word2Vector模型去学习关键词的文本语义表示。在这个实验中,我们从每一个物品的描述文本和描述标题中提取五个主题词,然后再利用平均池化方法融合五个关键词向量到一个向量表示。
2)Vanilla注意力层
因为物品的特征经常是异构的,很难知道是哪些特征决定一个用户的选择。因此,我们使用一个Vanilla注意力机制去辅助基于特征的自注意力块捕获用户对属性(例如,类别,商标,描述文本等)不断变化的喜好。给定一个物品j,它的属性能被编码为其中,vec(cj)和vec(bj)分别表示物品j的类别和品牌的稠密向量表示,表示物品j的文本特征表示。形式上,这个注意力网络被定义为:
αj=softmax(WfAj+bf),(1)
其中,Wf是d×d的矩阵,bf是d-维的向量。最后,我们通过注意力评分来计算物品j的属性向量表示的加权和。
fj=αjAj。 (2)
值得注意的是,如果物品j只考虑一个特征(例如,类别),这个物品j的特征表示为vec(cj)。
2)基于特征的自注意力块
因为基于物品的自注意力与基于特征的自注意力只有它们的输入部分不同,因此,我们集中在详细地描述基于特征自注意力块。从上面的vanilla注意力层,我们能得到物品j的特征表示fj。因此,给定一个用户,我们能得到一个特征序列f={f1,f2,...,fn)。为了建模特征层面的转换模式,我们利用Vaswani等人提出的自注意力网络能够有效地捕获特征之间的关系,而不考虑它们之间的距离。虽然自注意网络可以确保计算效率并获得长期依赖性,但它忽略了序列输入的位置信息。因此,我们在特征的输入表示上加入位置矩阵即,这个基于特征的自注意力块的输入矩阵被定义为
Vaswani等人提出的缩放点积注意力(SDPA),即自注意力机制被定义为
其中Q,K,V分别表示query,key和value,d表示每个特征的特征维度。在基于特征自注意力机制块query,key和value都等于F,我们将它们通过三个不同的投射矩阵线性转换之后,喂到SDPA中,
Hf=SDPA(FWQ,FWK,FWv), (5)
其中WQ,WK是投射矩阵。为了使模型能够共同处理来自不同位置的不同表示子空间的信息,这个自注意力机制采用多头注意力机制(MH),这个多头注意力机制能够被定义为
其中Wo是要学习的参数,lf是基于特征自注意力机制设置的头数。除此之外,这个自注意力机制运用了残差连接,层正则化和激活函数为ReLU的两层全连接去增强自注意力机制的性能。最后,这个基于特征自注意力块的输出被定义为
其中W*,b*是模型参数。为了简化,我们定义整个自注意力块为
Of=SAB(F), (8)
因为物品的自注意力块和特征的自注意力块只是输入层面上有所不同,其余结构是一致的,因此这里为了简单采用统一的表述方式,将这两种都定义为SAB();
第一个自注意力块之后,Of本质上聚合了所有之前访问过的物品的特征表示。然而,下一个物品推荐可能更相关于最近访问的物品的特征,因此,我们在Of基础之上,再运用自注意力机制,它能够捕获更加复杂的特征转换。当自注意机制堆叠q块之后,
其中,当q为0时,
3)基于物品的自注意力块
基于物品的自注意力块的目的是为了学习有意义的物品层面的转换模式。给定一个用户,我们能够得到一个物品序列s以及它对应的矩阵S。因此,这个堆叠的基于物品自注意力块被构造为
其中,当q为0时,
4)全连接层
为了同时捕获物品和特征的转换模式,我们连接基于物品自注意力块的输出结果和基于特征注意力块的输出结果然后投射到一个全连接层。
其中最后,我们通过点积操作计算用户对物品的偏好。
其中,表示Osf的第t行,N是物品的嵌入矩阵,yt,j是给定之前的t个物品,物品j是下一个要访问的物品的概率。值得注意的是,在训练期间,这个模型输入的是一个序列(e.g.,s1,s2,...,sn-1),它期望得到的是一个“shifted”版本的序列:(i.e.,s2,s3,...,sn)。而在测试过程中,我们取矩阵Osf的最后一行来预测下一个物品。
2、损失函数
在这个子部分,为了有效地从训练过程中学习,我们采用交叉熵损失函数作为FDSA模型的优化目标函数,它被定义为
在这里,对于序列中的每一个物品j,我们随机采样一个负样例j′。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (7)

1.一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,构建基于特征层面更深的自注意力网络FDSA模型,通过FDSA模型捕获物品的特征之间的转换关系,来提高序列推荐性能;FDSA模型包括嵌入层、Vanilla注意力层、基于物品的自注意力块、基于特征的自注意力块和全连接层;其中,
嵌入层,用于投射物品的稀疏表示和物品的离散化的特征到低维的稠密向量,输出物品序列和物品的多种异构特征;物品序列输出至基于物品的自注意力块,物品的多种异构特征输出至Vanilla注意力层;
Vanilla注意力层,用于通过注意力机制将物品的多种异构特征以不同的权重结合到特征序列;
基于物品的自注意力块,用于根据物品序列去学习物品层面的序列模式;
基于特征的自注意力块,用于根据特征序列去捕获特征层面的序列模式;
全连接层,用于结合基于物品的自注意力块和基于特征的自注意力块的输出结果来预测给用户推荐的下一个物品。
2.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,嵌入层用于去转换行为序列s和其对应的类别序列c的one-hot向量到稠密向量表示;其中,
从用户历史行为序列中取一个固定长度的序列s=(s1,s2,...,sn)来计算用户历史偏好,其中n代表模式处理的最大长度;如果一个用户的行为序列小于n,在序列的左边使用0来填充序列直到序列的长度达到n;如果一个用户的行为序列大于n,取最近的n个行为;每一个物品对应着一个类别,得到一个固定长度的类别序列c=(c1,c2,...,cn);其中,sv为用户第v时刻访问的物品,cv为用户第v时刻访问的物品对应的类别特征,v=1,2,3...n。
3.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,Vanilla注意力层,用于采用一个Vanilla注意力机制去辅助基于特征的自注意力块捕获用户对属性不断变化的喜好;
给定一个物品j,它的属性能被编码为其中,vec(cj)和vec(bj)分别表示物品j的类别和品牌的稠密向量表示,表示物品j的文本特征表示;
注意力网络αj被定义为:
αj=softmax(WfAj+bf) (1)
其中,Wf是d×d的矩阵,bf是d-维的向量,d是向量的维度,softmax(*)是归一化指数函数;
通过注意力评分来计算物品j的属性向量表示的加权和;
fj=αjAj (2)
fj为物品j的特征表示。
4.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,基于特征的自注意力块:
从vanilla注意力层,能得到物品j的特征表示fj;因此,给定一个用户,能得到一个特征序列f={f1,f2,...,fn},fv为用户在第v时刻访问的物品对应的特征的特征向量表示;在特征的输入表示上加入位置矩阵 为二维矩阵空间,维度为n×d;即这个基于特征的自注意力块的输入矩阵F被定义为
其中,Pv为用户第v时刻访问的物品的位置向量表示;
自注意力机制SDPA(Q,K,V)被定义为
其中Q,K,V分别表示query,key和value,query是查询,key是键,value是键对应的值,上标T是转置,d表示向量的维度;在基于特征自注意力机制块query,key和value都等于F,将它们通过三个不同的投射矩阵线性转换之后,喂到缩放点积注意力SDPA中,
Hf=SDPA(FWQ,FWK,FWv) (5)
其中WQ,WK是投射矩阵,Hf是经过缩放点积注意力SDPA得到的结果,是二维矩阵空间,维度为d×d;这个自注意力机制采用多头注意力机制MH,这个多头注意力机制能够被定义为
其中Wo是要学习的参数,lf是基于特征自注意力机制设置的头数,Mf是经过多头注意力机制MH之后得到的结果,MH(F)是多头注意力机制,Concat()是向量连接函数,hi是第i头对应缩放点积注意力SDPA的结果,SDPA()是缩放点积注意力,i=1,2...lf;除此之外,这个自注意力机制运用了残差连接,层正则化和激活函数为ReLU的两层全连接去增强自注意力机制的性能;最后,这个基于特征自注意力块的输出被定义为
其中,LayerNorm()是层正则化,Of是经过残差连接和层正则化之后的结果,ReLU()是非线性激活函数,W1、W2、b1、b2均是FDSA模型参数;定义整个自注意力块SAB()为
Of=SAB(F), (8)
Of是聚合了所有之前访问过的物品的特征表示,SAB()是整个自注意力块;
当自注意机制堆叠q块之后,
其中,是基于特征自注意力块堆叠q块之后的结果,当q为0时,
5.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,基于物品的自注意力块:
给定一个用户,能够得到一个物品序列s以及它对应的矩阵S;这个堆叠的基于物品自注意力块被构造为
其中,是基于物品自注意力块堆叠q块之后的结果,当q为0时,
6.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,为了同时捕获物品和特征的转换模式,连接基于物品的自注意力块的输出结果和基于特征的自注意力块的输出结果然后投射到全连接层;
其中Osf是将两个自注意力块结合之后经过全连接层得到的结果,Wsf是全连接层的权重矩阵,bsf是全连接层的偏置向量,是二维空间,维度为2d×d,是一维空间,维度是d;通过点积操作计算用户对物品的偏好;
其中,表示Osf的第t行,N是物品的嵌入矩阵,Nj表示矩阵N中第j行对应的向量,也就是第j时刻用户访问物品的向量表示;是给定用户之前访问的t个物品,物品j是用户下一个要访问的物品的概率;
在测试过程中,取矩阵Osf的最后一行来预测下一个物品。
7.根据权利要求1所述的一种基于特征层面更深的自注意力网络的序列推荐方法,其特征在于,采用交叉熵损失函数作为FDSA模型的优化目标函数。
CN201910354632.0A 2019-04-29 2019-04-29 一种基于特征层面更深的自注意力网络的序列推荐方法 Active CN110083770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910354632.0A CN110083770B (zh) 2019-04-29 2019-04-29 一种基于特征层面更深的自注意力网络的序列推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910354632.0A CN110083770B (zh) 2019-04-29 2019-04-29 一种基于特征层面更深的自注意力网络的序列推荐方法

Publications (2)

Publication Number Publication Date
CN110083770A true CN110083770A (zh) 2019-08-02
CN110083770B CN110083770B (zh) 2023-01-13

Family

ID=67417670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354632.0A Active CN110083770B (zh) 2019-04-29 2019-04-29 一种基于特征层面更深的自注意力网络的序列推荐方法

Country Status (1)

Country Link
CN (1) CN110083770B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633789A (zh) * 2019-08-27 2019-12-31 苏州市职业大学 用于流媒体推荐的自我注意网络信息处理方法
CN110659742A (zh) * 2019-09-10 2020-01-07 阿里巴巴集团控股有限公司 获取用户行为序列的序列表示向量的方法和装置
CN110688565A (zh) * 2019-09-04 2020-01-14 杭州电子科技大学 基于多维霍克斯过程和注意力机制的下一个物品推荐方法
CN110781396A (zh) * 2019-10-25 2020-02-11 上海喜马拉雅科技有限公司 一种信息推荐方法、装置、设备及存储介质
CN111506835A (zh) * 2020-04-17 2020-08-07 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN112347263A (zh) * 2019-08-06 2021-02-09 上海智臻智能网络科技股份有限公司 一种知识图谱构建方法
CN112559877A (zh) * 2020-12-24 2021-03-26 齐鲁工业大学 基于跨平台异构数据及行为上下文的ctr预估方法及系统
CN112948716A (zh) * 2021-03-05 2021-06-11 桂林电子科技大学 一种基于多头注意力机制的连续兴趣点包推荐方法
CN113688315A (zh) * 2021-08-19 2021-11-23 电子科技大学 一种基于无信息损失图编码的序列推荐方法
CN115761510A (zh) * 2022-12-08 2023-03-07 中化现代农业有限公司 一种果实计数方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763493A (zh) * 2018-05-30 2018-11-06 深圳市思迪信息技术股份有限公司 一种基于深度学习的推荐方法
WO2018217948A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN109087130A (zh) * 2018-07-17 2018-12-25 深圳先进技术研究院 一种基于注意力机制的推荐系统及推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018217948A1 (en) * 2017-05-23 2018-11-29 Google Llc Attention-based sequence transduction neural networks
CN108763493A (zh) * 2018-05-30 2018-11-06 深圳市思迪信息技术股份有限公司 一种基于深度学习的推荐方法
CN109087130A (zh) * 2018-07-17 2018-12-25 深圳先进技术研究院 一种基于注意力机制的推荐系统及推荐方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347263A (zh) * 2019-08-06 2021-02-09 上海智臻智能网络科技股份有限公司 一种知识图谱构建方法
CN112347263B (zh) * 2019-08-06 2023-04-14 上海智臻智能网络科技股份有限公司 一种知识图谱构建方法
CN110633789A (zh) * 2019-08-27 2019-12-31 苏州市职业大学 用于流媒体推荐的自我注意网络信息处理方法
CN110688565A (zh) * 2019-09-04 2020-01-14 杭州电子科技大学 基于多维霍克斯过程和注意力机制的下一个物品推荐方法
CN110688565B (zh) * 2019-09-04 2021-10-15 杭州电子科技大学 基于多维霍克斯过程和注意力机制的下一个物品推荐方法
CN110659742A (zh) * 2019-09-10 2020-01-07 阿里巴巴集团控股有限公司 获取用户行为序列的序列表示向量的方法和装置
CN110781396A (zh) * 2019-10-25 2020-02-11 上海喜马拉雅科技有限公司 一种信息推荐方法、装置、设备及存储介质
CN111506835B (zh) * 2020-04-17 2022-12-23 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN111506835A (zh) * 2020-04-17 2020-08-07 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN112559877A (zh) * 2020-12-24 2021-03-26 齐鲁工业大学 基于跨平台异构数据及行为上下文的ctr预估方法及系统
CN112948716B (zh) * 2021-03-05 2023-02-28 桂林电子科技大学 一种基于多头注意力机制的连续兴趣点包推荐方法
CN112948716A (zh) * 2021-03-05 2021-06-11 桂林电子科技大学 一种基于多头注意力机制的连续兴趣点包推荐方法
CN113688315A (zh) * 2021-08-19 2021-11-23 电子科技大学 一种基于无信息损失图编码的序列推荐方法
CN113688315B (zh) * 2021-08-19 2023-04-18 电子科技大学 一种基于无信息损失图编码的序列推荐方法
CN115761510A (zh) * 2022-12-08 2023-03-07 中化现代农业有限公司 一种果实计数方法

Also Published As

Publication number Publication date
CN110083770B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN110083770A (zh) 一种基于特征层面更深的自注意力网络的序列推荐方法
CN107273438B (zh) 一种推荐方法、装置、设备及存储介质
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN109145112A (zh) 一种基于全局信息注意力机制的商品评论分类方法
CN110413785A (zh) 一种基于bert和特征融合的文本自动分类方法
CN109299396A (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及系统
CN112417306B (zh) 基于知识图谱的推荐算法性能优化的方法
CN111666406B (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
Castellano et al. Leveraging knowledge graphs and deep learning for automatic art analysis
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN109284406A (zh) 基于差异循环神经网络的意图识别方法
CN113326378B (zh) 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法
CN108984642A (zh) 一种基于哈希编码的印花织物图像检索方法
Wu et al. Spatial–temporal relation reasoning for action prediction in videos
CN110659411A (zh) 一种基于神经注意力自编码器的个性化推荐方法
CN108256968A (zh) 一种电商平台商品专家评论生成方法
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
Chen et al. TransZero++: Cross attribute-guided transformer for zero-shot learning
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架
Wang et al. Many hands make light work: Transferring knowledge from auxiliary tasks for video-text retrieval
Hu et al. MAENet: A novel multi-head association attention enhancement network for completing intra-modal interaction in image captioning
CN114003770A (zh) 一种受阅读策略启发的跨模态视频检索方法
CN113268657B (zh) 基于评论和物品描述的深度学习推荐方法及系统
CN115828852A (zh) 一种基于杂志的人名实体链接方法
Huang et al. Model-aware contrastive learning: Towards escaping the dilemmas

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant