CN116049549A - 一种基于多粒度特征融合的活动推荐方法 - Google Patents
一种基于多粒度特征融合的活动推荐方法 Download PDFInfo
- Publication number
- CN116049549A CN116049549A CN202310010373.6A CN202310010373A CN116049549A CN 116049549 A CN116049549 A CN 116049549A CN 202310010373 A CN202310010373 A CN 202310010373A CN 116049549 A CN116049549 A CN 116049549A
- Authority
- CN
- China
- Prior art keywords
- user
- activity
- users
- activities
- preference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 282
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 9
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 238000005295 random walk Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 10
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 9
- 244000046052 Phaseolus vulgaris Species 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 238000002679 ablation Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于社交网络和多粒度特征融合的活动推荐方法,用于基于活动的社交网络推荐系统中,帮助组织者找到想要参加活动的用户。首先,通过爬虫技术从网络中获取相关的活动数据。然后从用户历史参与或者感兴趣的活动中提取用户的兴趣偏好,利用非线性遗忘函数对用户不同时期交互的互动赋予不同的权值。同时,由于非活跃用户参与的事件较少,无法准确获取用户偏好。根据用户共同的行为数据构建用户社交网络,提取活动内容、活动上下文和用户社交关系三种特征。根据用户的不同活跃程度进行特征提取,融合多粒度特征权重来计算用户对事件的偏好;最后,使用矩阵分解模型对评分矩阵进行分解,计算用户对目标活动的偏好值进行活动推荐。
Description
技术领域
本发明涉及推荐系统技术领域,具体涉及一种基于多粒度特征融合的活动推荐方法,可用于同城活动推荐,能够为活动组织者推荐最有可能参与目标活动的用户。
背景技术
在疫情防控的形势下,人们的外出旅游活动减少,休闲活动回归本地化,本地休闲消费成为经济复苏的重要推动力之一。促进本地休闲消费,需要了解不同个体的休闲偏好,才能将休闲产品与用户需求精确匹配,实现个性化营销。活动型社交网络(EBSNs)是一种发布、分享本地休闲活动的社交网络,如Meetup、Plancast、豆瓣同城等。组织方在线上发起活动,用户对心仪的活动做出“感兴趣”或“要参加”等反馈。由于EBSNs平台上每天都会发布成百上千的活动,用户难以从众多的活动中筛选出符合自身兴趣爱好的活动,因此需要活动推荐系统在正确的时间内将合适的活动精确推荐给用户。
研究表明,活动自身属性(如内容、详情、标签),活动上下文以及社交关系等都会对用户活动参与造成影响。活动推荐系统就是从用户历史交互的活动中提取主要特征,推荐用户可能参与的活动。然而,活动的生命周期较短,活动推荐通常发生在活动发布至活动举行这段时间内,导致活动在发布初期的用户反馈较少。EBSNs中的活动推荐存在严重的冷启动问题。此外,在社交网络中,不同活跃度用户的行为存在较大差异,活跃用户会参与更多的活动,可以从其参与的历史活动中提取用户特征;而对于数量更多的非活跃用户来说,他们参与活动较少,难以准确提取非活跃用户的特征。
EBSNs的活动推荐系统分为基于记忆的推荐模型、基于因子分解的推荐模型和基于图的推荐模型。基于记忆的推荐模型通过计算用户偏好和目标活动特征的相似性进行推荐。许多研究从用户历史活动的内容和上下文中提取用户特征。在提取用户偏好时,需要计算用户在不用时期交互活动对用户当前兴趣的影响,从而引入用户长短期兴趣模型以计算用户不同时期的行为权重。基于因子分解的推荐模型主要包括贝叶斯个性化排名(BPR)、矩阵分解(MF)、集体矩阵分解(CMF)、奇异值分解(SVD)。很多学者从活动语义、活动时空信息和线上社交网络中提取特征,通过因子分解模型整合用户偏好和社交网络,获得最有可能参与活动的用户列表。近年来,基于图的活动推荐研究逐渐增多。基于图的推荐模型将用户、组织者、活动等实体看作节点,将这些节点构建成一个图,将推荐问题看作一个邻近节点的查询问题。常见的度量节点相似度的方法有:随机游走、重启型随机游走和马尔科夫链模型等。
综上所述,现有的活动推荐方法普遍没有考虑到不同活跃度用户之间的差异,对所有的用户进行特征提取,构建统一的推荐模型,导致推荐的准确率降低;同时,没有很好的解决用户特征偏好随时间变化的影响;而且,对用户特征提取不够全面,没有深入挖掘用户之间潜在的社交关系,本发明通过融合多粒度的特征来计算用户的偏好。
发明内容
为了解决不同活跃度用户之间的行为差异以及EBSNs中用户之间的相互影响,本发明提出了一种基于多粒度特征融合的活动推荐方法。实现本方法的主要思路如下:首先,利用网络爬虫技术从豆瓣同城网站中获取相关的活动数据和用户数据,并对数据进行清洗;然后,将活动数据分为活动文本和活动上下文,提取活动的特征,从用户历史参与活动以及感兴趣的活动提取用户特征,并且,本方法将融合非线性遗忘函数来模拟用户的兴趣变化;同时,将用户分为活跃用户和非活跃用户,分别构建用户的特征空间,训练得到用户-活动的评分矩阵;由于评分矩阵的稀疏性,使用矩阵分解法分解用户-活动评分矩阵,获得用户和活动的潜在特征,根据用户对目标活动的喜爱值排序,推荐最有可能参与目标活动的Top-K用户列表。
本发明包括以下步骤:
步骤一:获取数据集;由于缺乏公开的EBSNs数据集,通过网络爬虫技术从豆瓣同城网站中获取北京地区一年的活动数据和用户数据,对原始数据进行清洗,去除掉缺少字段和错误的数据。将真实的用户参与和感兴趣的活动数据进行标注。
步骤二:特征提取;将活动数据分为活动文本数据和活动上下文数据,对活动文本数据进行嵌入,得到文本特征表示;活动上下文数据主要包括活动的时空数据和参与成本,提取活动举办时间、地点和费用特征。从用户历史参与的活动和感兴趣的活动中,提取用户的偏好,由于用户各个时期对参与活动的权重不同,利用非线性遗忘函数模拟用户兴趣偏好的变化,根据用户交互的活动,计算用户的特征偏好。
步骤三:社交网络构建;构建用户和活动组织者以及用户之间的社交关系。在豆瓣同城网站中不存在显示的用户之间的好友关系,本方法根据用户存在的共同行为数据构建用户社交网络,如果两个用户存在共同参与或感兴趣的活动,且他们加入共同的兴趣小组,则认为这两个用户之间存在共同的兴趣偏好。
步骤四:多粒度特征融合;根据步骤二中得到的用户特征,构建用户特征权重;将步骤三中得到的用户社交网络,将用户的兴趣偏好融合到用户特征权重模型中;由于不同活跃度用户之间存在明显的行为差异,按照用参与过活动的数量,将用户分为活跃用户和非活跃用户,对不同活跃度的用户分别构建用户的特征空间。
步骤五:活动推荐;计算用户对目标活动的喜爱值,同时由于用户-活动评分矩阵的稀疏性,使用矩阵分解模型对评分矩阵进行分解,得到潜在的用户特征和活动特征,计算用户对目标活动的偏好值,根据偏好值进行排序,将评分最高的Top-K用户列表推荐给活动组织者。
与现有的活动推荐技术相比,本发明有以下技术优势:
1)引入用户的多重社交关系,从活动属性、活动上下文和用户社交关系三方面因素提取用户的多重特征,更准确地对用户的休闲偏好进行建模;
2)在提取用户特征偏好时,利用非线性遗忘函数用户偏好随时间的变化,准确提取用户在不同时期交互活动的权重。
3)将用户分为活跃用户和非活跃用户,为活跃用户和非活跃用户分别学习特征参数,以解决不同活跃度的用户之间的行为差异问题和冷启动问题。
附图说明
图1是本发明所设计方法的整体流程图。
图2是本发明所设计的基于多粒度特征融合的活动推荐方法模型结构图。
图3是本发明获取的豆瓣同城数据样例图。
图4是本发明所述的用户之间的社交关系示意图。
图5是本发明所述的多粒度特征融合结构图。
图6是活动推荐消融实验F1值变化示意图。
图7是活动推荐消融实验NDCG变化示意图。
具体实施方式
以下将结合具体实施例子,并参照附图,对本发明进行进一步的细化说明。
本发明所设计的一种基于多粒度特征融合的活动推荐方法,方法整体流程图如图1所示,模型结构图如图2所示
步骤一:获取数据集
豆瓣同城是中国最大、最齐全的线下活动社区,豆瓣同城聚焦城市休闲活动。由于缺乏公开的豆瓣同城数据集,本发明使用python爬虫技术从豆瓣同城上获取北京市2020年7月-2021年8月之间的活动数据、用户参与活动数据和用户加入兴趣小组的数据。如图3所示,活动包含活动标题、活动标签、活动类型、活动时间、举办位置的坐标、用户参与活动成本和活动组织者等属性。首先对数据进行清洗,去除没有用户参与的和缺失字段的活动数据,一共得到了162469个同城休闲活动、299个兴趣小组、118393位用户。每个用户平均参与4个活动,最多参与了371个活动,平均每个用户加入3个兴趣小组,最多加入了39个小组。
步骤二:特征提取
根据活动的属性将活动数据分为活动内容和活动上下文数据,活动内容由标题、标签、类型和描述四个部分组成,均为文本数据。其中活动标题、标签和描述是由活动组织者自己定义,活动类型由活动组织者在13种类型中进行选择,每个活动只能设定一种类型。活动上下文包括活动举办时间、活动举办地点和参与活动的费用。
通常情况下,用户的兴趣会随着时间的推移而发生变化,用户近期参加的活动最能反映出用户当前的兴趣偏好。因此,在计算用户对活动内容的偏好时引入非线性遗忘函数能够更准确地计算用户当前的偏好。本发明将用户对历史活动e的遗忘系数定义为:
其中te为用户参与活动e的举办时间,tmin为用户所有历史活动的最早举办时间,tmax为用户所有历史活动的最晚举办时间,α为遗忘函数的参数,当α=1时表示完全非线性遗忘,当α=0时表示未遗忘,当0<α<1时表示部分遗忘,α越大意味着用户的遗忘速度越快。本发明中α取0.6。
活动内容是用户决定是否参与活动的主要影响因素。由于活动标题、标签和描述都是文本,且是用户自定义的,本发明将这三个部分合并成一个文本,去除文本中的停用词和标点符号,使用LDA主题模型提取文本主题向量。利用JS散度计算目标活动与历史活动的文本相似度,引入遗忘函数作为JS散度的权重,得到用户对目标活动i的文本偏好如下:
其中θe和θi分别代表历史活动e和目标活动i的主题向量,Up为用户历史交互的活动集合,te为历史活动e的举办时间,h(te)为历史活动e的遗忘系数。
由于活动类型是固定的13种类型之一,本方法采用one-hot编码对活动类型进行编码,同样引入遗忘函数作为余弦相似度的权重,历史活动举办时间越邻近,其权重便越大。得到用户对目标活动i的类型偏好如下:
其中Te和Ti分别代表历史活动e和目标活动i的类型编码。
活动上下文主要包括活动时间、活动地点和活动费用。活动举办时间在一周、一天内呈现周期性规律,因此,把活动时间特征再细分为周-日和日-时特征两种。
由于一个活动可能会持续多天,跨越工作日和周末,因此将一周分为工作日(周一到周五)和周末(周六、周日),将活动e的周-日特征定义为该活动在工作日和周末举行的天数,表示为一个二元组De;使用余弦相似度计算目标活动与历史活动的周-日特征相似度,得到用户对目标活动i的周-日特征偏好:
其中|Up|代表用户参加的历史活动的数量,Di为目标活动i的周-日特征二元组。
将活动的开始时间记作日-时特征,使用高斯函数计算目标活动与历史活动的日-时相似度,得到用户对目标活动i的日-时特征偏好:
使用欧氏距离函数计算目标活动与历史活动的空间相似度,得到用户对目标活动i的空间偏好如下:
其中,Li和Le分别表示目标活动和历史活动的位置,d(Li,Le)2表示为Li和Le之间的欧氏距离。
活动的参与费用也会影响用户参与活动的意愿,将活动费用归一化后,作为活动的费用特征使用核密度估计法计算活动的成本相似度,得到用户对目标活动i的费用偏好:
其中,Ci和Ce分别代表目标活动和历史活动的参与成本,K(Ci,Ce)为Ci和Ce的核密度估计值。
步骤三:社交网络构建
如图4所示,本发明构建的用户之间的社交关系图,其中包括用户和活动组织者、用户之间和用户参与兴趣小组的关系。
用户和组织者之间的关系包括关注关系和偏好关系。本发明将用户与组织者的关注关系定义为用户关注了某个活动组织者。这表明用户对该组织者组织的活动有较为持续的兴趣。若用户关注了某位组织者,则关注特征为1,否则为0。用户对组织者的偏好关系定义为用户多次参加了其组织的活动。这表明用户很有可能会参加该组织者组织的下一次活动,将用户对组织者的偏好特征定义为用户参与该活动组织者的活动数量。
用户的活动决策会受到其好友的影响。本发明认为如果两个用户加入了同一个兴趣小组,且参与过相同的活动或对相同的活动感兴趣,那么他们之间可能存在潜在的好友关系。
计算用户之间的关系权重。将用户i和用户j之间的关系权重定义为Wij,numij为用户i和用户j的关系共同参与或感兴趣的活动的数量,groupij为用户i和用户j共同加入的兴趣小组的数量。
将每个用户看作一个节点,建立用户社交关系图,运用重启随机游走算法生成用户随机游走序列。用户节点随机游走过程如下:
随机游走的初始节点R0为用户节点ui,Rk为随机游走的第k步所到达的节点,W为由公式8计算得出的用户之间的权重关系Wij组成的矩阵。d的取值范围为0~1之间,表示进行下一步游走的概率,而(1-d)代表回到起始节点的概率,此处的d设置为0.85,依次生成每个节点的随机游走序列,然后对每个节点的随机游走序列进行编码。
使用余弦相似度计算用户ui和各个节点的相似度,得到和用户ui相似度最高的前5个节点选取与目标用户ui最亲近的5个用户节点,代表与用户偏好最接近的好友,计算这5个好友对目标活动的平均偏好值,得到用户社交特征:
步骤四:多粒度特征融合
由于不同活跃度的用户行为差异较大,且非活跃用户因参与活动较少而存在冷启动问题,因此从提高非活跃用户预测准确度的角度出发,将用户分为活跃用户和非活跃用户。我们将2020年07月-2021年6月之间举办的活动数据作为训练数据集,使用GBRT算法对这两类用户分别进行训练,确定用户特征空间中的各个特征权重,得到活跃用户和非活跃用户的特征权重模型。
将训练数据集整理得到所有用户-活动对D(u,e)、活跃用户集合Uactive和非活跃用户集合Uinactive、所有活动集合E、组织者集合O和所有用户集合U。首先,从E中提取目标活动开始前,用户ui参与过的所有历史活动和用户是否参与目标活动标签l,当用户反馈想参加或感兴趣时,l为1,否则为0。如图5所示,计算用户的历史活动分别计算用户对目标活动的内容偏好f1~f2,对目标活动的上下文偏好f3~f6,f1~f6组成用户对活动的偏好Fe;在步骤三中,从组织者集合O中提取活动组织者oi,计算用户ui对活动组织者oi的偏好,构成特征Fo;并且,从U中提取出用户ui的5个最亲密的好友集合计算用户好友对目标活动的偏好程度,获得用户对于目标活动的偏好特征Fs;最后把三组特征Fe、Fo、Fs和标签l拼接加入到数据集,使用GBRT算法进行训练得到用户特征权重模型ModelGBRT。
步骤五:活动推荐
推荐最有可能参与目标活动的用户列表。将测试数据集整理得到用户集U、新发布的活动集合Enew、活动组织者集合O和步骤四中得到的ModelGBRT。首先,根据步骤二依次提取新活动ei的内容特征和上下文特征再根据步骤三从用户集U中提取每个用户uj对新活动组织者的偏好特征最后提取用户的好友关系对新活动ei的偏好特征使用ModelGBRT计算用户对新活动ei的偏好值,组成用户-活动评分矩阵M。由于大多数用户不会参与太多的活动,每个活动可能只获得少量的用户反馈,导致用户-活动评分矩阵出现“数据稀疏”和“数据倾斜”问题,使用矩阵分解法分解评分矩阵,使用随机梯度下降法优化矩阵分解结果,计算用户对新活动的偏好值矩阵。按照用户对活动的预测值进行排序,算法输出最有可能参与新活动ei的Top-K用户列表。
实验结果与分析
将2021年7月-2021年8月之间的活动作为测试数据集对推荐的准确率进行评估。本发明使用机器学习评价指标F1值和归一化折损累计增益(NDCG)进行评估。
F1值是精确度和召回率的调和平均值,可以综合评价推荐模型的性能。
精确率和召回率由TP(真阳性)、FP(假阳性)和FN(假阴性)计算得到。精确率是指被推荐参加活动的用户中真正参与活动的概率。
召回率指在实际参加活动的用户中,被推荐参与活动的用户占实际参与活动用户的比例。
NDCG用于反映推荐列表先后顺序的优劣,可以评估推荐列表和真实列表的排序关联度,NDCG的数值越大,表示推荐的效果越好。
其中NDCGe为推荐活动e的折损累计增益,Enew为新发布的活动集合。
将本发明所提出的模型与常用的活动推荐模型进行对比,选择常用的活动推荐模型MP、COBM、LBTM作为基础模型。MP是以用户参与活动的数量作为评价用户活跃的指标,将近期最活跃的用户推荐给活动组织者;COBM针对新活动推荐的冷启动问题,根据活动内容提取用户的偏好,结合活动组织者、参与者的关系和活动的位置进行推荐;LBTM是从用户参与过的历史活动中提取活动的内容、位置和时间特征,得到相似的活动,再根据时间特征从相似的活动中提取用户计算偏好值。
将本发明和以上的三种基线方法应用于相同的豆瓣同城数据集中,并对推荐模型的性能进行比较。由表1可以看出。随着K的数量增加,F1值在逐步升高。然而无论K取值为多少,本发明的F1值始终高于其他模型。
表1本发明和基线推荐模型F1值比较
如表2所示,通过NDCG来评估推荐用户序列与真实参与活动的用户列表之间的关联度。本发明模型的NDCG明显高于其他模型,说明推荐用户列表的关联度与真实参与活动的用户有更强的关联性。
表2本发明和基线推荐模型NDCG比较
为了验证本发明引入的用户活跃度分类、用户社交特征和用户偏好随时间的变化等关键特征的必要性,本发明分别舍弃以上特征进行了消融实验:Ours-c为不区分用户活跃度进行推荐、Ours-s为不考虑用户社交特征进行推荐、Ours-f为特征提取时不考虑用户偏好随时间变化进行推荐。仍然采用F1值和NDCG指标进行评价,将消融实验模型与本发明模型进行对比。
如图6所示,Ours-c的F1值相对Ours-s、Ours-f更低,说明用户活跃度特征相对于其他两个特征而言,对于提升推荐系统准确率最为重要。当K大于15时,F1值从高到底排序分别为Ours、Ours-f、Ours-s、Ours-c,用户活跃度分类对F1值的影响最大。无论K为多少,Ours的NDCG始终大于缺少关键因素的其他模型,说明引入用户活跃度分类、用户社交关系和用户兴趣变化特征对于优化推荐列表作用显著。
综上所述,本发明所设计的活动推荐方法从活动内容、活动上下文和用户社交三个方面提取用户偏好,在提取活动内容特征时引入非线性遗忘函数来模拟用户近期的活动偏好;引入用户与组织者以及用户与用户之间的社交关系来获取目标用户的偏好;同时对不同活跃度的用户分别构建的特征权重。使用三个常用的基准方法和本发明进行实验对比,结果也表明了本发明所提出的活动推荐方法获得了优异的推荐性能。
Claims (4)
1.一种基于多粒度特征融合的活动推荐方法,其特征在于,包括如下步骤:
步骤一:获取数据集;通过网络爬虫技术获取活动数据和用户数据,并作为活动推荐方法的原始数据;对原始数据进行清洗,去除掉缺少字段和错误的数据;将真实的用户参与和感兴趣的活动数据进行标注;
步骤二:特征提取;将活动数据分为活动文本数据和活动上下文数据,对活动文本数据进行嵌入,得到文本特征表示;活动上下文数据包括时空数据和参与成本,提取活动举办时间、地点和费用特征;从用户历史参与的活动和感兴趣的活动中,提取用户的偏好,由于用户各个时期对参与活动的权重不同,利用非线性遗忘曲线模拟用户兴趣偏好的变化,根据用户参与的活动特征,计算用户的特征偏好;
步骤三:社交网络构建;构建用户和活动组织者以及用户之间的社交关系;在网站中不存在显示的用户之间的好友关系,根据用户存在的共同行为数据构建用户社交网络,如果两个用户存在共同参与或感兴趣的活动,且加入共同的兴趣小组,则认为这两个用户之间存在共同的兴趣偏好;
步骤四:多粒度特征融合;根据步骤二中得到的用户特征,构建用户特征权重;将步骤三中得到的用户社交网络,将用户的兴趣偏好融合到用户特征权重模型中;由于不同活跃度用户之间存在明显的行为差异,按照用参与过活动的数量,将用户分为活跃用户和非活跃用户,对不同活跃度的用户分别构建用户的特征空间;
步骤五:活动推荐;计算用户对目标活动的喜爱值,同时由于用户-活动评分矩阵的稀疏性,使用矩阵分解模型对评分矩阵进行分解,得到潜在的用户特征和活动特征,计算用户对目标活动的偏好值,根据偏好值进行排序,将评分最高的用户列表推荐给活动组织者。
3.根据权利要求1所述的一种基于多粒度特征融合的活动推荐方法,其特征在于:步骤三所述的用户潜在社交网络的构建,具体包括:
用户的活动决策会受到其好友的影响;如果两个用户加入了同一个兴趣小组,且参与过相同的活动或对相同的活动感兴趣,那么他们之间可能存在潜在的好友关系;
计算用户之间的关系权重;将用户i和用户j之间的关系权重定义为Wij,numij为为用户i和用户j的关系共同参与或感兴趣的活动的数量,groupij为用户i和用户j共同加入的兴趣小组的数量;
将每个用户看作一个节点,建立用户社交关系图,运用重启随机游走算法生成用户随机游走序列;用户节点随机游走过程如下:
随机游走的初始节点R0为用户节点ui,Rk为随机游走的第k步所到达的节点,W为由计算得出的用户之间的权重关系Wij组成的矩阵;依次生成每个节点的随机游走序列,然后对每个节点的随机游走序列进行编码。
4.根据权利要求1所述的一种基于多粒度特征融合的活动推荐方法,其特征在于:步骤四所述的用户特征融合,具体包括:
由于不同活跃度的用户行为差异较大,且非活跃用户因参与活动较少而存在冷启动问题,从提高非活跃用户预测准确度的角度出发,将用户分为活跃用户和非活跃用户;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310010373.6A CN116049549A (zh) | 2023-01-04 | 2023-01-04 | 一种基于多粒度特征融合的活动推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310010373.6A CN116049549A (zh) | 2023-01-04 | 2023-01-04 | 一种基于多粒度特征融合的活动推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116049549A true CN116049549A (zh) | 2023-05-02 |
Family
ID=86115931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310010373.6A Pending CN116049549A (zh) | 2023-01-04 | 2023-01-04 | 一种基于多粒度特征融合的活动推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049549A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217808A (zh) * | 2023-07-21 | 2023-12-12 | 广州有机云计算有限责任公司 | 一种智能的活动邀请裂变能力分析预测方法 |
CN118411194A (zh) * | 2024-07-04 | 2024-07-30 | 山东物慧信息科技有限公司 | 一种社区积分制运营服务数据信息整合系统 |
-
2023
- 2023-01-04 CN CN202310010373.6A patent/CN116049549A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217808A (zh) * | 2023-07-21 | 2023-12-12 | 广州有机云计算有限责任公司 | 一种智能的活动邀请裂变能力分析预测方法 |
CN117217808B (zh) * | 2023-07-21 | 2024-04-05 | 广州有机云计算有限责任公司 | 一种智能的活动邀请裂变能力分析预测方法 |
CN118411194A (zh) * | 2024-07-04 | 2024-07-30 | 山东物慧信息科技有限公司 | 一种社区积分制运营服务数据信息整合系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116049549A (zh) | 一种基于多粒度特征融合的活动推荐方法 | |
CN111428127B (zh) | 融合主题匹配与双向偏好的个性化事件推荐方法及系统 | |
CN101634996A (zh) | 基于综合考量的个性化视频排序方法 | |
Kokkodis et al. | The utility of skills in online labor markets | |
Pramanik et al. | Deep learning driven venue recommender for event-based social networks | |
CN118093884B (zh) | 基于关键词匹配的文本聚类方法及系统 | |
CN115618101A (zh) | 基于负反馈的流媒体内容推荐方法、装置及电子设备 | |
CN115438787A (zh) | 行为预测系统的训练方法及装置 | |
Smiljanić et al. | A theoretical model for the associative nature of conference participation | |
CN116738066A (zh) | 乡村旅游服务推荐方法、装置、电子设备及存储介质 | |
CN113052653A (zh) | 一种金融产品内容推荐方法、系统及计算机可读存储介质 | |
Wu et al. | Task assignment for social-oriented crowdsourcing | |
Akila et al. | Opinion mining on food services using topic modeling and machine learning algorithms | |
US20170061480A1 (en) | Optimizing acquisition channels based on customer lifetime values | |
CN117217808B (zh) | 一种智能的活动邀请裂变能力分析预测方法 | |
KR100901782B1 (ko) | 마케팅 정보 생성 방법 및 시스템 | |
US20170372336A1 (en) | Predicting customer purchase behavior for educational technology products | |
Yan et al. | User recommendation with tensor factorization in social networks | |
Leng et al. | Geometric deep learning based recommender system and an interpretable decision support system | |
Liu et al. | A machine learning approach to predict customer churn of a delivery platform | |
Akhavan et al. | Application of Knowledge management in Customer relationship management: a data mining approach | |
Ngamsa-Ard et al. | Point-of-interest (POI) recommender systems for social groups in location based social networks (LBSNs): Proposition of an improved model | |
Yang et al. | A framework for recommender system based on game theory in social networks | |
Gunarathne et al. | Racial discrimination in social media customer service: evidence from a popular microblogging platform | |
Liu et al. | Understanding Consumer Preferences---Eliciting Topics from Online Q&A Community |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |