CN113935811A - 基于主题指导和双全局注意力的会话推荐方法 - Google Patents
基于主题指导和双全局注意力的会话推荐方法 Download PDFInfo
- Publication number
- CN113935811A CN113935811A CN202111247515.8A CN202111247515A CN113935811A CN 113935811 A CN113935811 A CN 113935811A CN 202111247515 A CN202111247515 A CN 202111247515A CN 113935811 A CN113935811 A CN 113935811A
- Authority
- CN
- China
- Prior art keywords
- global
- representation
- topic
- embedded
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000009826 distribution Methods 0.000 claims abstract description 73
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 239000000126 substance Substances 0.000 claims description 18
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 239000004576 sand Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- UVZICZIVKIMRNE-UHFFFAOYSA-N thiodiacetic acid Chemical compound OC(=O)CSCC(O)=O UVZICZIVKIMRNE-UHFFFAOYSA-N 0.000 description 21
- 238000002474 experimental method Methods 0.000 description 13
- 230000006399 behavior Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010206 sensitivity analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及互联网大数据技术领域,具体涉及一种基于主题指导和双全局注意力的会话推荐方法,其首先,基于注意力机制从目标会话文本的不同角度提取包含体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示的全局嵌入表示;然后,从目标会话文本中提取对应的主题嵌入表示;最后,基于主题嵌入表示指导全局嵌入表示进行预测,以生成最终预测概率分布,并基于最终预测概率分布进行商品推荐。本发明中基于主题指导和双全局注意力的会话推荐方法能够兼顾商品分布概率预测的全面性和准确性。
Description
技术领域
本发明涉及互联网大数据技术领域,具体涉及基于主题指导和双全局注意力的会话推荐方法。
背景技术
基于会话的推荐是一种针对匿名用户或未登录用户的一种推荐模式,其在如今的各大电商平台(淘宝、京东等)或流媒体平台(抖音,YouTobe等)发挥着重要作用。在实际场景中,我们也许只能获取到用户的短期历史交互,比如:新用户或未登录用户。此时依赖于用户长期历史交互的推荐算法在会话推荐中的表现会收到限制,例如基于协同过滤或马尔可夫链的方法。因此,基于会话的推荐成为一个研究热点,其目标是根据用户在会话中的行为序列来推荐用户感兴趣的下一个商品。
近年来,基于会话的推荐方法主要采用循环神经网络(RNN)或者基于循环神经网络(RNN)的优化方法来学习会话中的商品序列信息以及商品对用户当前兴趣的影响程度。然而,这些方法只考虑到当前会话中物品的转移信息,却忽略了更复杂的物品空间结构信息。为此,公开号为CN111460331A的中国专利就公开了《一种基于时空图的会话推荐方法》,其首先根据用户当前会话以及物品的有向图网络构建时空图,通过平行循环神经网络结构对时空图进行建模,得到用户的短期兴趣;然后用长短记忆网络对用户的最近会话进行向量表征,并采用注意力机制学习用户最近会话中对当前短期兴趣影响较大的长期兴趣;最后,结合用户的短期兴趣和长期兴趣进行物品的推荐。
上述现有方案中的会话推荐方法同时根据用户当前兴趣和用户最近会话列表并采用注意力机制对用户的长期兴趣进行建模,极大地提高了会话推荐的准确度。然而,现有的会话推荐方法几乎没有研究和关注全局信息(全局角度的可用信息),即没能有效的挖掘商品的全局信息,使得预测分布概率时难以融入商品全局信息,进而导致商品分布概率预测的全面性偏低。同时,由于仅通过数据无法判断商品的所属主题(例如手机”和“耳机”都属于电子产品这一主题),使得现有会话推荐方法都忽略了建模商品间的主题关系,导致商品分布概率预测的准确性不高。因此,如何设计一种能够兼顾商品分布概率预测的全面性和准确性的会话推荐方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种能够兼顾商品分布概率预测的全面性和准确性的会话推荐方法,从而提升商品推荐的效果。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于主题指导和双全局注意力的会话推荐方法,其首先,基于注意力机制从目标会话文本的不同角度提取包含体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示的全局嵌入表示;然后,从目标会话文本中提取对应的主题嵌入表示;最后,基于主题嵌入表示指导全局嵌入表示进行预测,以生成最终预测概率分布,并基于最终预测概率分布进行商品推荐。
优选的,通过如下步骤生成最终预测概率分布:
S2:从候选商品集合V={v1,v1,…,v|V|}中提取候选商品vj∈V作为目标商品的全局邻居,并分别通过编码和注意力机制生成对应的显式全局嵌入表示Gs;从候选商品局部表示H=(h1,h2,…,h|V|)中提取与目标商品局部表示最相似的K个候选商品局部表示hj∈H,并分别通过编码和注意力机制生成对应的隐式全局嵌入表示Us;通过全局交互注意力机制对显式全局嵌入表示Gs和隐式全局嵌入表示Us进行融合,得到对应的全局嵌入表示
S4:通过主题嵌入表示指导局部嵌入表示和全局嵌入表示进行特征聚合,并分别生成对应的会话局部表示el和会话全局表示eg,然后分别基于会话局部表示el和会话全局表示eg进行探索和预测,以生成最终预测概率分布yi。
优选的,步骤S2中,通过如下步骤生成显式全局嵌入表示:
优选的,步骤S2中,通过如下步骤生成隐式全局嵌入表示:
优选的,步骤S2中,通过如下公式生成全局嵌入表示:
优选的,步骤S3中,通过如下步骤生成主题嵌入表示:
优选的,步骤S4中,通过如下步骤生成最终预测概率分布:
S402:基于主题嵌入表示分别指导局部嵌入表示Hs和全局嵌入表示进行特征聚合,并生成对应的会话局部表示el和会话全局表示eg,然后基于会话局部表示el和会话全局表示eg生成对应的局部探索概率分布和全局探索概率分布
优选的,通过如下公式计算重复概率分布:
优选的,通过如下步骤计算局部探索概率分布和全局探索概率分布:
优选的,通过如下公式表示门控机制:
通过如下公式计算最终概率分布:
本发明中的会话推荐方法与现有技术相比,具有如下有益效果:
在本发明中,从不同的角度提取了体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示,即自适应的获取了会话中的全局信息,进而能够基于全局信息增强商品的表示,使得能够融入全局信息来进行商品分布(推荐)概率的预测,从而能够提升商品推荐预测的全面性。同时,本发明以自适应的方式学习会话中的主题嵌入表示,并基于主题嵌入表示指导局部嵌入表示和全局嵌入表示进行特征聚合和预测,进而能够增强商品的推荐效果,从而能够提升商品推荐预测的准确性,并提升商品推荐的效果。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为会话推荐方法的网络结构示意图;
图2为不同模型在长会话和短会话上的性能差异示意图;
图3为参数λ敏感性分析示意图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种基于主题指导和双全局注意力的会话推荐方法。
如图1所示,基于主题指导和双全局注意力的会话推荐方法,
首先,基于注意力机制从目标会话文本的不同角度提取包含体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示的全局嵌入表示。
然后,从目标会话文本中提取对应的主题嵌入表示。
最后,基于主题嵌入表示指导全局嵌入表示进行预测,以生成最终预测概率分布,并基于最终预测概率分布进行商品推荐。
具体的,能够通过本发明中基于主题指导和双全局注意力的会话推荐方法构建一个对应的主题指导和全局注意力的话推荐模型(TDGA)。该模型中,通过显示全局注意力网络和隐式全局注意力网络分别获取显式全局嵌入表示和隐式全局嵌入表示;再通过全局交互注意力网络将显式全局嵌入表示和隐式全局嵌入表示进行融合,得到全局嵌入表示。通过设置的商品主题模块提取会话中的主题嵌入表示。通过重复预测模块和探索预测模块分别进行重复预测和探索预测,以得到最终预测概率分布。
具体的,通过如下步骤生成最终预测概率分布:
S2:从候选商品集合V={v1,v1,…,v|V|}中提取候选商品vj∈V作为目标商品的全局邻居,并分别通过编码和注意力机制生成对应的显式全局嵌入表示Gs;从候选商品局部表示H=(h1,h2,…,h|V|)中提取与目标商品局部表示最相似的K个候选商品局部表示hj∈H,并分别通过编码和注意力机制生成对应的隐式全局嵌入表示Us;通过全局交互注意力机制对显式全局嵌入表示Gs和隐式全局嵌入表示Us进行融合,得到对应的全局嵌入表示
S4:通过主题嵌入表示指导局部嵌入表示和全局嵌入表示进行特征聚合,并分别生成对应的会话局部表示el和会话全局表示eg,然后分别基于会话局部表示el和会话全局表示eg进行探索和预测,以生成最终预测概率分布yi。
在本发明中,从不同的角度提取了体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示,即自适应的获取了会话中的全局信息,进而能够基于全局信息增强商品的表示,使得能够融入全局信息来进行商品分布(推荐)概率的预测,从而能够提升商品推荐预测的全面性。同时,本发明以自适应的方式学习会话中的主题嵌入表示,并基于主题嵌入表示指导局部嵌入表示和全局嵌入表示进行特征聚合和预测,进而能够增强商品的推荐效果,从而能够提升商品推荐预测的准确性,并提升商品推荐的效果。
具体实施过程中,通过如下步骤生成显式全局嵌入表示:
S201:计算目标商品与各个候选商品vj的PMI值,然后提取PMI值最大的前K个候选商品vj作为目标商品的全局邻居,并生成对应的全局邻居序列如果前K个商品vj对应的PMI值小于0,我们对其执行遮蔽操作,目的是过滤掉全局邻居中的噪音信息。
具体的,通过如下公式计算PMI值:
通过如下公式生成显示全局嵌入表示:
在本发明中,通过计算目标商品和候选商品PMI值以选取全局邻居的方式,同时考虑了目标商品和候选商品的共现次数和各自的全局出现频率,使得能够自适应的提取体现共现关系的显式全局嵌入表示,即能够从会话中获取到更全面的全局信息,从而更好的基于会话全局表示实现商品推荐预测。
具体实施过程中,通过如下步骤生成隐式全局嵌入表示:
S211:计算目标商品局部表示与各个候选商品局部表示hj的余弦相似度,然后提取余弦相似度最高的K个候选商品局部表示hj生成目标商品局部表示的全局序列表示如果最相似的前K个hj对应的r(i,j)(余弦相似度)存在小于0的,我们对其进行遮蔽操作以防止来自全局的噪音信息混入。
具体的,通过如下公式计算余弦相似度:
通过如下公式计算隐式全局嵌入表示:
在本发明中,通过计算余弦相似度来选取目标商品全局邻居的方式,能够有效获取体现语义关系的隐式全局嵌入表示,即能够从会话中获取到更全面的全局信息,从而更好的基于会话全局表示实现商品推荐预测。
具体实施过程中,步骤S2中,通过如下公式生成全局嵌入表示:
在本发明中,通过全局交互注意力机制使得显式全局嵌入表示和隐式全局嵌入表示能够充分交互、融合,进而能够得到更强的会话全局表示,从而更好的基于会话全局表示实现商品推荐预测。
具体实施过程中,通过如下步骤生成主题嵌入表示:
具体的,通过如下公式生成待分配主题:
通过如下公式生成所属主题:
通过如下公式生成主题嵌入表示:
在本发明中,通过自适应的方式学习商品主题嵌入表示,进而能够基于主题嵌入表示指导实现商品推荐预测,从而能够提升商品推荐预测的准确性。
具体实施过程中,步骤S4中,通过如下步骤生成最终预测概率分布:
S402:基于主题嵌入表示分别指导局部嵌入表示Hs和全局嵌入表示进行特征聚合,并生成对应的会话局部表示el和会话全局表示eg,然后基于会话局部表示el和会话全局表示eg生成对应的局部探索概率分布和全局探索概率分布
具体的,通过如下公式计算重复概率分布:
具体的,通过如下公式表示门控机制:
通过如下公式计算最终概率分布:
本发明中,基于主题指导和全局注意力的话推荐模型(TDGA)通过最小化交叉熵loss来优化模型参数,具体公式如下:
在实际研究中发现,用户重复购买行为的样本占据了所有样本量的约20%,不存在重复购买行为的样本占据了总样本量的约80%。
为此,本发明通过计算重复概率分布和探索概率分布的方式,能够生成更加符合用户偏好的概率分布,即能够更精确的进行商品分布概率的预测,从而能够提升商品推荐预测的准确性。
为了更好的说明本发明中会话推荐方法的优势,本实施例还公开了如下实验。
一、数据集
本实验使用三个广泛使用的基准数据集Diginetica、Yoochoose和Retailrocke来评估TDGA(基于本发明的会话推荐方法构建的模型)和基线(用作对比的模型)的性能。
1)Diginetica是从2016年CIKM Cup上获得。由于其数据类型是交易数据,所以经常被用于基于会话的推荐任务;提取最后一周的数据作为测试集。
2)Yoochoose是从RecSys Challenge 2015中获得,其中包含6个月内来自电子商务网站的点击流。由于Yoochoose太大,本实验提取训练序列的最近部分1/64和1/4作为训练数据,表示为“Yoochoose1/64”和“Yoochoose1/4”。为了加速训练,我们采用“Yoochoose1/64”来验证TDGA在Yoochoose上的表现;最后一天的数据作为测试数据。
3)Retailrocket是从Kaggle competition 2016中获得,其中包含了用户在4-5个月内对电商网站的行为。本实验提取训练序列的最近1/4部分作为训练数据,最后15天的数据作为测试数据。
二、基线模型
为了全面评估TDGA的性能,本实验将其与一系列基线模型进行比较,基线模型如下所示:
1)POP:它根据训练集中的商品出现频率进行top-K商品推荐。
2)Item-KNN(是指Badrul M S,George K,Joseph A.Konstan,et al.2001.《Item-based collaborative filtering recommendation algorithms》中公开的模型):它基于协同过滤来推荐与序列中相似的商品。
3)FPMC(是指Steffen R,Christoph F,Lars S T.2010.《Factorizingpersonalized Markov chains for next-basket recommendation》中公开的模型):它是一种基于马尔可夫链和矩阵分解的混合序列推荐方法。由于会话推荐中用户表示不可用,所以FPMC中用户表示被忽略。
4)GRU4REC(是指Balázs H,Alexandros K,Linas B,et al.《Session-basedrecommendations with recurrent neural networks》中公开的模型):它应用GRU模拟用户的顺序行为,并使用会话并行小批量训练策略。
5)NARM(是指Jing Li,Pengjie Ren,Zhumin Chen,Zhaochun Ren et al.《Neuralattentive session-based recommendation》中公开的模型)它结合了GRU和注意机制来模拟用户的顺序行为。
6)STAMP(是指Huizhao Wang,Guanfeng Liu,An Liu et al.《DMRAN:Ahierarchical fine-grained attention-based network for recommendation》中公开的模型):它采用注意机制来代替RNN,并根据会话的最后一个商品进行推荐。
7)CSRM(是指Meirui Wang,Pengjie Ren,Lei Mei et al.2019.《ACollaborative Session-based Recommendation Approach with Parallel MemoryModules》中公开的模型):CSRM构建了一个记忆网络,从全局角度提取有效会话,以增强用户的意图表达。
8)SR-GNN(是指Shu Wu,Yuyuan Tang,Yanqiao Zhu et al.2019.《Session-basedrecommendation with graph neural networks》中公开的模型):它结合了门控GNN和注意机制来生成会话表示。
9)TA-GNN(是指Feng Yu,Yanqiao Zhu,Qiang Liu et al.《TAGNN:TargetAttentive Graph Neural Networks for Session-based Recommendation》中公开的模型):它考虑了目标商品和用户兴趣的多样性。同时,利用注意力机制将会话中的项目转化为用户的目标倾向,并结合GNN进行推荐。
10)GCE-GNN(是指Ziyang Wang,Wei Wei,Gao Cong et al.《Global contextenhanced graph neural networks for session-based recommendation》中公开的模型):GCE-GNN是最先进的模型,它利用项目的全局上下文表示和反向位置关注来增强会话表示。
三、实验参数设置
在TDGA中,所有数据集的训练批次大小设置为256,商品和主题的embedding(编码或嵌入)维度为256;控制局部顺序信息和全局顺序信息比例的超参数λ=0.4。为了保证基线模型性能达到最优,按照原始论文中的参数进行设置。显式和隐式全局邻居K设置为10;所有可训练参数均按照均值为0、标准差为0.1的高斯分布进行初始化。本实验使用Adam优化器对模型进行优化,初始学习率为0.001,每训练3轮学习率将衰减为之前的0.1倍。
四、整体实验效果
在表1中,展示了TDGA和10个基线模型的总体实验结果(包括显著性检验),其中每个数据的最优指标用黑体加粗,第二优的指标用下划线进行了标注。从整体实验结果来看,TDGA带来了明显的性能提升,这证实了TDGA的有效性。
从表1中可以看出,传统方法(POP、Item-KNN、FPMC)效果未能达到理想状态。但是Item-KNN在Diginetica中超越GRU4REC,这验证了用户的潜在偏好对推荐性能有很大影响。与传统方法相比较,基于深度神经网络的方法表现出了不错的效果。其中,GRU4REC首次应用GRU对会话序列进行建模,其性能表现出了RNN对序列建模的能力。NARM和STAMP在会话推荐中引入了注意力机制来捕捉会话的表示。NARM结合了RNN和注意力机制来模拟用户的偏好。STAMP只结合了注意机制和最后一项的表示进行推荐,其性能超过了NARM,说明了注意力机制会话推荐中的有效性。CSRM是会话推荐中第一个考虑到了全局信息的工作,其性能优于NARM和STAMP,这显示了来自其他会话的辅助信息的有效性。但是由于CSRM是将会话作为最小处理单元,会导致无法处理来自会话中的噪音商品,这对实际场景是不友好的。SR-GNN、TA-GNN、GCE-GNN是基于图网络的最新工作。基于图网络的工作更加关注于商品间的转换关系,本实验发现约80%的会话不存在重复点击,这部分数据的所生成的图结构其实是一种顺序的表达,利用GNN来学习商品的表示所带来的性能在我们实验中提升并不大,所以我们选择从重复-探索角度来捕获商品间的关系。
从表1中可以看出TDGA在三个公开数据集上均优于最先进的基线模型,TDGA比最先进的基线在Diginetica、Yoochoose、Retailrocket上分别高出了3.8%、1.6%、8.3%。
表1中,P@20(P@K表示长度为K的召回列表中真实标签的命中率)和MRR@20(MRR@K表示长度为K的召回列表中真实标签的平均排序倒数)均表示设置的测评指标。
表1总体实验效果
五、消融实验
为了验证TDGA中各个模块的有效性,本实验设置了如下对比模型:
1)w/o IG:移除掉TDGA中的显式全局邻居注意力网络。
2)w/o OG:移除掉TDGA中的隐式全局邻居注意力网络。
3)w/o G:同时移除掉TDGA中的显式和隐式全局邻居注意力网络。
4)w/o topic:移除掉TDGA中的商品主题模块。
从表2中可以看出不论是移除掉显式全局注意力网络还是隐式注意力网络,模型性能都存在着不同程度的降低,这说明了显式注意力网络和隐式注意力网络的有效性。显式和隐式注意力网络分别从不同的角度获取商品的全局邻居,二者信息互相指导补充使得模型性能达到最优。很明显,将显式和隐式全局注意力网络都移除会给模型性能带来较大下降。另外,同时我们通过w/o topic还可以验证商品主题模块的有效性,商品主题模块可以捕获不同商品之间的共性,可以辅助模型其他模块生成更加准确的会话表示。
表2总体实验效果
六、模型在不同长度会话上的差异
为了验证模型在不同长度的会话上表现如何,本实验将Diginetica和Yoochoose中会话长度大于5的视为长会话(对应图2中的“long session”),小于5的视为短会话(对应图2中的“short session”)。我们将TDGA与最先进的2个基线模型TA-GNN和GCE-GNN分别在长会话和短会话上进行了实验。从图2中我们可以看到,TDGA与基线模型在短会话上表现更好,这是因为短会话中的商品与用户的交互关系更为简单,长会话中的商品与用户存在着更加复杂的交互关系。另一方面我们可以看到,TDGA在短会话和长会话中都存在着明显的优势,这验证了TDGA在不同长度会话上的有效性。
七、参数敏感性分析
探索预测模块中的顺序信息对模型至关重要,本实验对其中控制局部和全局顺序信息比例的超参数λ进行了分析。从图3(图中“values ofλ”是指:λ的值)中我们可以看到评测指标P@20和MRR@20都是随着λ的增大而先增加后减少,并在λ=0.4左右效果达到较好状态,这说明局部顺序信息和全局顺序信息相互平衡,局部顺序信息或全局顺序信息过大对模型性能都会产生一定影响。
八、总结
在3个真实的公共数据集上的实验表明,本发明提出的基于主题指导和双全局注意力的会话推荐方法及其TDGA模型能够增强推荐性能,推荐效果有明显的优势。
需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。同时,实施例中公知的具体结构及特性等常识在此未作过多描述。最后,本发明要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (10)
1.基于主题指导和双全局注意力的会话推荐方法,其特征在于:
首先,基于注意力机制从目标会话文本的不同角度提取包含体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示的全局嵌入表示;
然后,从目标会话文本中提取对应的主题嵌入表示;
最后,基于主题嵌入表示指导全局嵌入表示进行预测,以生成最终预测概率分布,并基于最终预测概率分布进行商品推荐。
2.如权利要求1所述的基于主题指导和双全局注意力的会话推荐方法,其特征在于,通过如下步骤生成最终预测概率分布:
S2:从候选商品集合V={v1,v1,…,v|V|}中提取候选商品vj∈V作为目标商品的全局邻居,并分别通过编码和注意力机制生成对应的显式全局嵌入表示Gs;从候选商品局部表示H=(h1,h2,…,h|V|)中提取与目标商品局部表示最相似的K个候选商品局部表示hj∈H,并分别通过编码和注意力机制生成对应的隐式全局嵌入表示Us;通过全局交互注意力机制对显式全局嵌入表示Gs和隐式全局嵌入表示Us进行融合,得到对应的全局嵌入表示
9.如权利要求7所述的基于主题指导和双全局注意力的会话推荐方法,其特征在于:通过如下步骤计算局部探索概率分布和全局探索概率分布:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111247515.8A CN113935811B (zh) | 2021-10-26 | 2021-10-26 | 基于主题指导和双全局注意力的会话推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111247515.8A CN113935811B (zh) | 2021-10-26 | 2021-10-26 | 基于主题指导和双全局注意力的会话推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113935811A true CN113935811A (zh) | 2022-01-14 |
CN113935811B CN113935811B (zh) | 2024-05-14 |
Family
ID=79284211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111247515.8A Active CN113935811B (zh) | 2021-10-26 | 2021-10-26 | 基于主题指导和双全局注意力的会话推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113935811B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232480A (zh) * | 2019-03-01 | 2019-09-13 | 电子科技大学 | 利用变分的正则化流实现的项目推荐方法及模型训练方法 |
CN110796313A (zh) * | 2019-11-01 | 2020-02-14 | 北京理工大学 | 一种基于带权图卷积和项目吸引力模型的会话推荐方法 |
CN112967112A (zh) * | 2021-03-24 | 2021-06-15 | 武汉大学 | 一种自注意力机制和图神经网络的电商推荐方法 |
US20210326674A1 (en) * | 2019-05-13 | 2021-10-21 | Tencent Technology (Shenzhen) Company Limited | Content recommendation method and apparatus, device, and storage medium |
-
2021
- 2021-10-26 CN CN202111247515.8A patent/CN113935811B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232480A (zh) * | 2019-03-01 | 2019-09-13 | 电子科技大学 | 利用变分的正则化流实现的项目推荐方法及模型训练方法 |
US20210326674A1 (en) * | 2019-05-13 | 2021-10-21 | Tencent Technology (Shenzhen) Company Limited | Content recommendation method and apparatus, device, and storage medium |
CN110796313A (zh) * | 2019-11-01 | 2020-02-14 | 北京理工大学 | 一种基于带权图卷积和项目吸引力模型的会话推荐方法 |
CN112967112A (zh) * | 2021-03-24 | 2021-06-15 | 武汉大学 | 一种自注意力机制和图神经网络的电商推荐方法 |
Non-Patent Citations (2)
Title |
---|
张天龙;韩立新: "基于全局与局部相融合的方面注意力推荐模型", 中国科技论文, no. 011, 31 December 2019 (2019-12-31) * |
方军;管业鹏: "基于双编码器的会话型推荐模型", 西安交通大学学报, no. 008, 31 December 2021 (2021-12-31) * |
Also Published As
Publication number | Publication date |
---|---|
CN113935811B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046304B (zh) | 一种用户推荐方法和装置 | |
CN111931062B (zh) | 一种信息推荐模型的训练方法和相关装置 | |
Xing et al. | A hierarchical attention model for rating prediction by leveraging user and product reviews | |
Da’u et al. | An adaptive deep learning method for item recommendation system | |
Ni et al. | An effective recommendation model based on deep representation learning | |
CN111400591A (zh) | 资讯信息推荐方法、装置、电子设备及存储介质 | |
Xiao et al. | Hierarchical neural variational model for personalized sequential recommendation | |
Amir et al. | On the current state of deep learning for news recommendation | |
Chen et al. | Local variational feature-based similarity models for recommending top-n new items | |
Zhiyuli et al. | Bookgpt: A general framework for book recommendation empowered by large language model | |
Wu et al. | Leveraging neighborhood session information with dual attentive neural network for session-based recommendation | |
Da'u et al. | Multi-level attentive deep user-item representation learning for recommendation system | |
Zhang et al. | Dual part-pooling attentive networks for session-based recommendation | |
Zhang et al. | Attention-based frequency-aware multi-scale network for sequential recommendation | |
Liang et al. | Graph path fusion and reinforcement reasoning for recommendation in MOOCs | |
Wang et al. | Incomplete multimodality-diffused emotion recognition | |
Liu et al. | Dynamic and static representation learning network for recommendation | |
CN117171440A (zh) | 基于新闻事件和新闻风格联合建模的新闻推荐方法和系统 | |
Yang et al. | Aspect-based capsule network with mutual attention for recommendations | |
Cheng et al. | Accurate multi-interest modeling for sequential recommendation with attention and distillation capsule network | |
Chairatanakul et al. | Recurrent translation-based network for Top-N sparse sequential recommendation | |
Turnbull | Learning intent to book metrics for airbnb search | |
CN113935811A (zh) | 基于主题指导和双全局注意力的会话推荐方法 | |
CN113268657B (zh) | 基于评论和物品描述的深度学习推荐方法及系统 | |
CN114117233A (zh) | 一种基于用户隐式反馈的会话新闻推荐方法及推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |