CN108446350A - 一种基于主题模型分析与用户长短兴趣的推荐方法 - Google Patents
一种基于主题模型分析与用户长短兴趣的推荐方法 Download PDFInfo
- Publication number
- CN108446350A CN108446350A CN201810190979.1A CN201810190979A CN108446350A CN 108446350 A CN108446350 A CN 108446350A CN 201810190979 A CN201810190979 A CN 201810190979A CN 108446350 A CN108446350 A CN 108446350A
- Authority
- CN
- China
- Prior art keywords
- user
- interest
- activity
- movable
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000004458 analytical method Methods 0.000 title claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 108
- 230000007774 longterm Effects 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000018199 S phase Effects 0.000 claims 1
- 238000012216 screening Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 24
- 230000008859 change Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 2
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题模型分析与用户长短兴趣的推荐方法,包括:对活动文本集进行隐藏主题训练得到训练好的模型,计算得到所有类别的类特征主题分布;将用户长期、近期的活动文本输入训练好的模型,得到用户长期、近期活动主题特征向量,结合行为权重和时间衰减函数得到用户的长、短兴趣向量;根据用户的长兴趣向量和所有类别的类特征主题分布,得到长兴趣的余弦相似值,选取长兴趣的余弦相似值最高的TopM的类别,根据用户的短兴趣向量和TopM的类别中的活动,得到短兴趣的余弦相似值,根据短兴趣的余弦相似值,得到活动平台对用户的推荐活动。本发明在选取待推荐活动的时缩小了筛选范围,从而缩短了推荐计算的时间同时也能提高推荐的准确率。
Description
技术领域
本发明属于推荐系统中的推荐算法领域,更具体地,涉及一种基于主题模型分析与用户长短兴趣的推荐方法。
背景技术
近年来,基于活动的社交网络(EBSNs),例如meetup和豆瓣同城,得到了广泛的发展。这些网站不仅为传播各种各样的社交活动提供了一个方便的平台,也在用户之间构建了一个庞大的社交网络。由此,不管是学术界还是工业界,如何高效地为用户推荐个性化的活动成了一个热门的领域。活动推荐与其他产品的推荐不一样,因为产品推荐通常并没有被嵌入到社交网络中,没有考虑各种复杂的社交关系。所以,社交网络中的活动推荐面临很多新的挑战。
在使用基于内容的推荐方法时,传统的做法是将用户所有的历史记录数据进行处理分析,并对用户兴趣爱好进行建模,然而这种方法并没有考虑用户的长短兴趣随时间的变化可能有所改变。虽有少量研究考虑了用户的长短兴趣变化,但没有区分用户行为记录中的不同行为类别,亦未加入行为权重因素进行加权考虑。
由此可见,现有技术没有考虑用户的长短兴趣随时间的变化可能有所改变、没有区分用户行为记录中的不同行为类别、亦未加入行为权重因素进行加权考虑,进而导致推荐结果不准确。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于主题模型分析与用户长短兴趣的推荐方法,由此解决现有技术没有考虑用户的长短兴趣随时间的变化可能有所改变、没有区分用户行为记录中的不同行为类别、亦未加入行为权重因素进行加权考虑,进而导致推荐结果不准确的技术问题。
为实现上述目的,本发明提供了一种基于主题模型分析与用户长短兴趣的推荐方法,包括:
(1)使用LDA模型对活动平台的活动文本集进行隐藏主题训练,得到训练好的模型,将活动文本集中的每个活动文本输入训练好的模型得到每个活动文本的特征向量;
(2)根据活动平台的活动类别将活动文本集分类,得到每个类别的活动文本,对每个类别的活动文本的特征向量进行矢量相加,然后进行归一化处理,得到每个类别的类特征主题分布,进而得到所有类别的类特征主题分布;
(3)将活动平台中用户长期的活动文本输入训练好的模型,得到用户长期活动主题特征向量,结合行为权重和时间衰减函数得到用户的长兴趣向量;将活动平台中用户近期的活动文本输入训练好的模型,得到用户近期活动主题特征向量,结合行为权重与时间衰减函数得到用户的短兴趣向量;
(4)根据用户的长兴趣向量和所有类别的类特征主题分布,得到长兴趣的余弦相似值,选取长兴趣的余弦相似值最高的TopM的类别,根据用户的短兴趣向量和TopM的类别中的活动,得到短兴趣的余弦相似值,根据短兴趣的余弦相似值,得到活动平台对用户的推荐活动;
所述长期大于等于六个月,所述近期为时间衰减函数中一个衰减周期。
进一步地,步骤(1)的具体实现方式为:
将活动平台的活动文本集中的活动文本去除停用词后,使用LDA模型进行隐藏主题训练,得到训练好的模型,将活动文本集中的每个活动文本输入训练好的模型得到每个活动文本的特征向量:
其中,k表示训练主题数目,k取80至100,le中的每一维都表示一个隐含的主题,b表示le中的维数变量,e表示一个活动文本,tk表示第k个主题,pk表示第k个主题的概率。
进一步地,停用词包括啊、了和么。
进一步地,步骤(2)的具体实现方式为:
根据活动平台的活动类别将活动文本集分类,得到每个类别的活动文本E={E1,E2,…,EC},E为活动文本集,c表示活动的类别,Ec为第c类活动的活动文本,对E中的每个类别Eα,1≤a≤c,对每个类别的活动文本的特征向量进行矢量相加,m表示第α类活动中活动的个数:
然后进行归一化处理:
得到每个类别的类特征主题分布进而得到所有类别的类特征主题分布 和分别表示归一化前后所有类别的类特征主题分布第j维的概率,1≤j≤k。
进一步地,步骤(3)包括:
(3-1)将活动平台中用户长期的活动文本EU={e1,e2…,en}输入训练好的模型,得到用户长期活动主题特征向量其中n为活动记录个数1≤i≤n;
(3-2)对每个活动ei,若用户参与了该活动,则取权重α1,若用户只是对该活动感兴趣,则取权重α2,其中α1>α2,0≤α1≤1,0≤α2≤1;然后计算活动ei体现的无衰减的用户兴趣向量
(3-3)结合时间衰减函数计算用户衰减的兴趣向量,表示成计算公式如下:
其中,t表示距离当前推荐活动的时间点用户参与该活动的月数,λ是衰减因子;
(3-4)将EU中的每个活动ei的用户衰减的兴趣向量依次进行矢量相加和归一化处理之后得到用户长兴趣向量LU,其中,表示的用户长兴趣向量第j维的概率,1≤j≤k;
(3-5)将活动平台中用户近期的活动文本E′U={e′1,e′2,…,e′q},输入训练好的模型,得到用户近期活动主题特征向量,q为用户近期的活动文本个数;
(3-6)对每个活动e′i,计算该活动体现的无衰减的用户短期兴趣向量,结合时间衰减函数计算出该活动的用户短期衰减的兴趣向量;
(3-7)将E′U中的每个活动e′i体现的用户短期衰减的兴趣向量依次进行矢量相加和归一化处理后得到用户的短兴趣向量SU,其中,表示的用户短兴趣向量第j维的概率,1≤j≤k。
进一步地,衰减因子的范围是0.8-1。
进一步地,步骤(4)包括:
(4-1)对用户U,计算用户的长兴趣向量LU与中每个类别的活动文本的特征向量的余弦相似值,得到长兴趣的余弦相似值:
进而得到H={H1,H2,…,Hc},c表示活动类别的个数,对H进行重排序,取长兴趣的余弦相似值最高的TopM的类别组成
(4-2)遍历W,对W中某个类别,取该类别中对应的所有待推荐的活动,计算每个待推荐的活动与用户的短兴趣向量SU的余弦相似值,得到短兴趣的余弦相似值
得到对Sw重排序之后取短兴趣的余弦相似值最高的K个活动组成S′w,最终组成共MK个活动,
(4-3)遍历S,将这MK个活动根据余弦相似值高低进行重排序,取余弦相似值最高的K个活动加入到R中,得到R={e1,e2,…,eK}作为活动平台对用户的推荐活动。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明将活动平台中用户长期的活动文本输入训练好的模型,得到用户长期活动主题特征向量,结合行为权重和时间衰减函数得到用户的长兴趣向量;将活动平台中用户近期的活动文本输入训练好的模型,得到用户近期活动主题特征向量,结合行为权重与时间衰减函数得到用户的短兴趣向量;充分考虑了用户的长短兴趣随时间的变化可能有所改变,同时结合用户的行为权重和时间衰减函数来构建用户的长短兴趣向量来解决新活动的冷启动问题,更准确地描述了用户的兴趣爱好及其可能的变化趋势;对比于根据用户长兴趣与每个活动类别的相似程度来选取该类别推荐活动个数的均衡占比法以及简单地使用用户的长兴趣匹配所有待推荐活动的方法,本发明提高了推荐准确率。
(2)本发明根据用户的长兴趣向量和所有类别的类特征主题分布,得到长兴趣的余弦相似值,选取长兴趣的余弦相似值最高的TopM的类别,根据用户的短兴趣向量和TopM的类别中的活动,得到短兴趣的余弦相似值,根据短兴趣的余弦相似值,得到活动平台对用户的推荐活动;由此区分用户行为记录中的不同行为类别,先选取长兴趣的余弦相似值最高的TopM的类别,然后根据短兴趣的余弦相似值,得到活动平台对用户的推荐活动,在选取待推荐活动的时缩小了筛选范围,从而缩短了推荐计算的时间同时也能提高推荐的准确率。
(3)本发明在训练之前,将将活动平台的活动文本集中的活动文本去除停用词,可以提高训练效率和训练的准确性,用户有两种行为,要么是参与了该活动,要么只是对该活动感兴趣,为了区别两种行为,本发明增加了对这两种行为取不同的权重。由于用户参与活动分布在不同的时间段,并且本发明考虑用户的兴趣点会随着时间的推移而发生一定的转移,因此本发明加入了时间函数,用来区分用户参与活动的时间的远近。
(4)本发明中λ是衰减因子,如果定义T表示的是用户兴趣值衰减一半的时间周期,则表示的是兴趣值衰减到一半的快慢。该值过大则用户的兴趣衰减速度很慢,对用户兴趣点岁时间推移而转移的特点表现不够明显;该值过小则用户的兴趣衰减速度过快,考虑到实际场景中,由于社交网络上,用户参与活动的频次一般是一个月参加一到两次左右,衰减过快则距离当前时间较远的活动记录对用户的长兴趣模型的计算贡献几乎为零。因此衰减因子取0.8-1。
附图说明
图1是本发明实施例提供的总流程图;
图2是本发明实施例提供的当α1不变,不同的α2取值,各指标的变化图;
图3是本发明实施例提供的当α2不变,不同的α1取值,各指标的变化图;
图4是本发明实施例提供的不同的λ对应的各指标的变化图;
图5是本发明实施例提供的三种推荐算法的准确率对比图;
图6是本发明实施例提供的三种推荐算法的召回率对比图;
图7是本发明实施例提供的三种推荐算法的运行时间对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种基于主题模型分析与用户长短兴趣的推荐方法,包括:
(1)将活动平台的活动文本集中的活动文本去除停用词:啊、了和么后,使用LDA模型进行隐藏主题训练,得到训练好的模型,将活动文本集中的每个活动文本输入训练好的模型得到每个活动文本的特征向量:
其中,k表示训练主题数目,k取80至100,le中的每一维都表示一个隐含的主题,b表示le中的维数变量,e表示一个活动文本,tk表示第k个主题,pk表示第k个主题的概率。
(2)根据活动平台的活动类别将活动文本集分类,得到每个类别的活动文本E={E1,E2,…,Ec},E为活动文本集,c表示活动的类别,Ec为第c类活动的活动文本,对E中的每个类别Eα,1≤a≤c,对每个类别的活动文本的特征向量进行矢量相加,m表示第α类活动中活动的个数:
然后进行归一化处理:
得到每个类别的类特征主题分布进而得到所有类别的类特征主题分布 和分别表示归一化前后所有类别的类特征主题分布第j维的概率,1≤j≤k。
(3)将活动平台中用户长期的活动文本输入训练好的模型,得到用户长期活动主题特征向量,结合行为权重和时间衰减函数得到用户的长兴趣向量;将活动平台中用户近期的活动文本输入训练好的模型,得到用户近期活动主题特征向量,结合行为权重与时间衰减函数得到用户的短兴趣向量;
(4)根据用户的长兴趣向量和所有类别的类特征主题分布,得到长兴趣的余弦相似值,选取长兴趣的余弦相似值最高的TopM的类别,根据用户的短兴趣向量和TopM的类别中的活动,得到短兴趣的余弦相似值,根据短兴趣的余弦相似值,得到活动平台对用户的推荐活动;
所述长期大于等于六个月,所述近期为时间衰减函数中一个衰减周期。
进一步地,步骤(3)包括:
(3-1)将活动平台中用户长期的活动文本EU={e1,e2,…,en}输入训练好的模型,得到用户长期活动主题特征向量其中n为活动记录个数1≤i≤n;
(3-2)对每个活动ei,用户有两种行为,要么是参与了该活动,要么只是对该活动感兴趣,为了区别两种行为,我们增加了对这两种行为取不同的权重。对每个活动ei,若用户参与了该活动,则取权重α1,若用户只是对该活动感兴趣,则取权重α2。从图2可以看出:当α1固定为1时,α2从0.1变化到1,算法的各项指标均是先有上升趋势,到α2=0.3时,各项指标达到最大值,α2>0.3之后,各项指标趋于平缓后有下降趋势。所以取α2为0.3。从图3可以看出:当α2固定为0.3时,α1从0.5变化到1,算法的各项指标先有上升趋势,当α1=0.9时,各指标达到最大值,之后基本保持平稳。所以取α1为0.9。然后计算活动ei体现的无衰减的用户兴趣向量
(3-3)结合时间衰减函数计算用户衰减的兴趣向量,表示成计算公式如下:
其中,t表示距离当前推荐活动的时间点用户参与该活动的月数,λ是衰减因子;比如当前时间为5月1日,用户历史记录中参与活动ex时间为3月1日,则t取值为2。如果我们定义T表示的是用户兴趣值衰减一半的时间周期,则表示的是兴趣值衰减到一半的快慢。该值过大则用户的兴趣衰减速度很慢,对用户兴趣点岁时间推移而转移的特点表现不够明显;该值过小则用户的兴趣衰减速度过快,考虑到实际场景中,由于社交网络上,用户参与活动的频次一般是一个月参加一到两次左右,衰减过快则距离当前时间较远的活动记录对用户的长兴趣模型的计算贡献几乎为零。这里我们这是该值取1。图4画出了不同的λ对应的各指标的变化图,可以看到λ的取值从0.3变化到1时,算法的各项指标均呈现缓慢上升趋势;当λ从1变化到1.5时,算法各项指标变化趋于平缓后略有下降趋势。但对性能指标的影响并不是十分明显,因此以下算法中选取λ=1。
(3-4)将EU中的每个活动ei的用户衰减的兴趣向量依次进行矢量相加和归一化处理之后得到用户长兴趣向量LU,其中,表示的用户长兴趣向量第j维的概率,1≤j≤k;可以看到用户长兴趣向量中的每一维代表的主题都与活动的特征向量相对应,所以他们之间计算相似度是完全合理的。
(3-5)将活动平台中用户近期的活动文本E′U={e′1,e′2,…,e′q},输入训练好的模型,得到用户近期活动主题特征向量,q为用户近期的活动文本个数;
(3-6)对每个活动e'i,计算该活动体现的无衰减的用户短期兴趣向量,结合时间衰减函数计算出该活动的用户短期衰减的兴趣向量;虽然这些活动记录E′U在一个衰减周期T内,但是不排除在这个衰减周期内,有部分用户还是参与或者感兴趣很多活动,为了将最近的兴趣向量凸显得更加明显,结合时间函数能起到一定的帮助。对于那些一个衰减周期T内并没有参与很多的用户,结合了时间函数对其短兴趣向量的影响并不会很大。
(3-7)将E'U中的每个活动e′i体现的用户短期衰减的兴趣向量依次进行矢量相加和归一化处理后得到用户的短兴趣向量SU,其中,表示的用户短兴趣向量第j维的概率,1≤j≤k。
进一步地,步骤(4)包括:
(4-1)对用户U,计算用户的长兴趣向量LU与中每个类别的活动文本的特征向量的余弦相似值,得到长兴趣的余弦相似值:
进而得到H={H1,H2,…,Hc},c表示活动类别的个数,对H进行重排序,取长兴趣的余弦相似值最高的TopM的类别组成
(4-2)遍历W,对W中某个类别,取该类别中对应的所有待推荐的活动,计算每个待推荐的活动与用户的短兴趣向量SU的余弦相似值,得到短兴趣的余弦相似值得到对Sw重排序之后取短兴趣的余弦相似值最高的K个活动组成S′w,最终组成共MK个活动,
(4-3)遍历S,将这MK个活动根据余弦相似值高低进行重排序,取余弦相似值最高的K个活动加入到R中,得到R={e1,e2,…,eK}作为活动平台对用户的推荐活动。
具体地,在所有待推荐的活动列表中根据推荐算法筛选出与每个用户兴趣最为相似的前20个活动作为推荐结果,现实每个用户的个性化推荐。对用户U,计算用户的长兴趣向量LU与中每个活动类别的主题向量的余弦相似值:
得到H={H1,H2,…,H13}。对H进行重排序,取相似值最高的Top3的类别组成
(5-2)遍历W,对W中某个类别,取该类别中对应的所有待推荐的活动,计算每个活动与用户短兴趣向量SU的余弦相似值,得到对Sw重排序之后取相似值最高的20个活动组成S′w,最终组成共60个活动。
(5-3)遍历S,将这60个活动根据相似度高低进行重排序,取相似值最高的20个活动加入到列表R中,得到R={e1,e2,…,e20}作为最后的推荐结果。
图5是三种不同推荐算法的准确率指标的对比图,可以看到推荐活动top3、top5、top10的准确率都是本发明的最优,说明本发明在推荐准确率上确实有所提升。图6是三种不同推荐算法的召回率指标的对比图,可以看到本发明的召回率相比其他的两种算法在不同的top值统计中都是最好的,说明本发明在推荐的召回率上也有所提升。图7是三种不同推荐算法的运行时间对比图,可以看到本发明的运行时间是最短的,说明本发明在提升了准确率和召回率的同时,减少了算法运行时间。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于主题模型分析与用户长短兴趣的推荐方法,其特征在于,包括:
(1)使用LDA模型对活动平台的活动文本集进行隐藏主题训练,得到训练好的模型,将活动文本集中的每个活动文本输入训练好的模型得到每个活动文本的特征向量;
(2)根据活动平台的活动类别将活动文本集分类,得到每个类别的活动文本,对每个类别的活动文本的特征向量进行矢量相加,然后进行归一化处理,得到每个类别的类特征主题分布,进而得到所有类别的类特征主题分布;
(3)将活动平台中用户长期的活动文本输入训练好的模型,得到用户长期活动主题特征向量,结合行为权重和时间衰减函数得到用户的长兴趣向量;将活动平台中用户近期的活动文本输入训练好的模型,得到用户近期活动主题特征向量,结合行为权重与时间衰减函数得到用户的短兴趣向量;
(4)根据用户的长兴趣向量和所有类别的类特征主题分布,得到长兴趣的余弦相似值,选取长兴趣的余弦相似值最高的TopM的类别,根据用户的短兴趣向量和TopM的类别中的活动,得到短兴趣的余弦相似值,根据短兴趣的余弦相似值,得到活动平台对用户的推荐活动;
所述长期大于等于六个月,所述近期为时间衰减函数中一个衰减周期。
2.如权利要求1所述的一种基于主题模型分析与用户长短兴趣的推荐方法,其特征在于,所述步骤(1)的具体实现方式为:
将活动平台的活动文本集中的活动文本去除停用词后,使用LDA模型进行隐藏主题训练,得到训练好的模型,将活动文本集中的每个活动文本输入训练好的模型得到每个活动文本的特征向量:
le={t1:p1,t2:p2,…,tk:pk};
其中,k表示训练主题数目,k取80至100,le中的每一维都表示一个隐含的主题,b表示le中的维数变量,e表示一个活动文本,tk表示第k个主题,pk表示第k个主题的概率。
3.如权利要求2所述的一种基于主题模型分析与用户长短兴趣的推荐方法,其特征在于,所述停用词包括啊、了和么。
4.如权利要求2所述的一种基于主题模型分析与用户长短兴趣的推荐方法,其特征在于,所述步骤(2)的具体实现方式为:
根据活动平台的活动类别将活动文本集分类,得到每个类别的活动文本E={E1,E2,…,Ec},E为活动文本集,c表示活动的类别,Ec为第c类活动的活动文本,对E中的每个类别Ea,1≤a≤c,对每个类别的活动文本的特征向量进行矢量相加,m表示第a类活动中活动的个数:
然后进行归一化处理:
得到每个类别的类特征主题分布进而得到所有类别的类特征主题分布
和分别表示归一化前后所有类别的类特征主题分布第j维的概率,1≤j≤k。
5.如权利要求2所述的一种基于主题模型分析与用户长短兴趣的推荐方法,其特征在于,所述步骤(3)包括:
(3-1)将活动平台中用户长期的活动文本EU={e1,e2,…,en}输入训练好的模型,得到用户长期活动主题特征向量其中n为活动记录个数1≤i≤n;
(3-2)对每个活动ei,若用户参与了该活动,则取权重α1,若用户只是对该活动感兴趣,则取权重α2,其中α1>α2,0≤α1≤1,0≤α2≤1;然后计算活动ei体现的无衰减的用户兴趣向量
(3-3)结合时间衰减函数计算用户衰减的兴趣向量,表示成计算公式如下:
其中,t表示距离当前推荐活动的时间点用户参与该活动的月数,λ是衰减因子;
(3-4)将EU中的每个活动ei的用户衰减的兴趣向量依次进行矢量相加和归一化处理之后得到用户长兴趣向量LU,其中,表示的用户长兴趣向量第j维的概率,1≤j≤k;
(3-5)将活动平台中用户近期的活动文本E′U={e′1,e′2,…,e′q},输入训练好的模型,得到用户近期活动主题特征向量,q为用户近期的活动文本个数;
(3-6)对每个活动e′i,计算该活动体现的无衰减的用户短期兴趣向量,结合时间衰减函数计算出该活动的用户短期衰减的兴趣向量;
(3-7)将E′U中的每个活动e′i体现的用户短期衰减的兴趣向量依次进行矢量相加和归一化处理后得到用户的短兴趣向量SU,其中,表示的用户短兴趣向量第j维的概率,1≤j≤k。
6.如权利要求5所述的一种基于主题模型分析与用户长短兴趣的推荐方法,其特征在于,所述衰减因子的范围是0.8-1。
7.如权利要求2所述的一种基于主题模型分析与用户长短兴趣的推荐方法,其特征在于,所述步骤(4)包括:
(4-1)对用户U,计算用户的长兴趣向量LU与中每个类别的活动文本的特征向量的余弦相似值,得到长兴趣的余弦相似值:
进而得到H={H1,H2,…,Hc},c表示活动类别的个数,对H进行重排序,取长兴趣的余弦相似值最高的TopM的类别组成
(4-2)遍历W,对W中某个类别,取该类别中对应的所有待推荐的活动,计算每个待推荐的活动与用户的短兴趣向量SU的余弦相似值,得到短兴趣的余弦相似值
得到对Sω重排序之后取短兴趣的余弦相似值最高的K个活动组成S′ω,最终组成共MK个活动,
(4-3)遍历S,将这MK个活动根据余弦相似值高低进行重排序,取余弦相似值最高的K个活动加入到R中,得到R={e1,e2,…,eK}作为活动平台对用户的推荐活动。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810190979.1A CN108446350B (zh) | 2018-03-09 | 2018-03-09 | 一种基于主题模型分析与用户长短兴趣的推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810190979.1A CN108446350B (zh) | 2018-03-09 | 2018-03-09 | 一种基于主题模型分析与用户长短兴趣的推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108446350A true CN108446350A (zh) | 2018-08-24 |
CN108446350B CN108446350B (zh) | 2020-05-19 |
Family
ID=63193840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810190979.1A Expired - Fee Related CN108446350B (zh) | 2018-03-09 | 2018-03-09 | 一种基于主题模型分析与用户长短兴趣的推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446350B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345302A (zh) * | 2018-09-27 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置、存储介质和计算机设备 |
CN109872190A (zh) * | 2019-02-20 | 2019-06-11 | 北京亿百分科技有限公司 | 基于lda模型提取消费者对促销活动兴趣度的方法 |
CN110191363A (zh) * | 2019-05-31 | 2019-08-30 | 电子科技大学 | 一种面向家庭组用户的推荐模型 |
CN110275952A (zh) * | 2019-05-08 | 2019-09-24 | 平安科技(深圳)有限公司 | 基于用户短期兴趣的新闻推荐方法、装置及介质 |
CN110297887A (zh) * | 2019-06-26 | 2019-10-01 | 山东大学 | 基于云平台的服务机器人个性化对话系统及方法 |
CN111563177A (zh) * | 2020-05-15 | 2020-08-21 | 深圳掌酷软件有限公司 | 一种基于余弦算法的主题壁纸推荐方法及系统 |
CN114742569A (zh) * | 2021-01-08 | 2022-07-12 | 广州视源电子科技股份有限公司 | 用户生命阶段预测方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488705A (zh) * | 2013-09-06 | 2014-01-01 | 电子科技大学 | 个性化推荐系统的用户兴趣模型增量更新方法 |
US20140280350A1 (en) * | 2013-03-15 | 2014-09-18 | Yahoo! Inc. | Method and system for user profiling via mapping third party interests to a universal interest space |
-
2018
- 2018-03-09 CN CN201810190979.1A patent/CN108446350B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140280350A1 (en) * | 2013-03-15 | 2014-09-18 | Yahoo! Inc. | Method and system for user profiling via mapping third party interests to a universal interest space |
CN103488705A (zh) * | 2013-09-06 | 2014-01-01 | 电子科技大学 | 个性化推荐系统的用户兴趣模型增量更新方法 |
Non-Patent Citations (1)
Title |
---|
陈杰等: "一种基于用户长短期兴趣的微博推荐方法", 《小型微型计算机系统》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345302A (zh) * | 2018-09-27 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置、存储介质和计算机设备 |
CN109345302B (zh) * | 2018-09-27 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置、存储介质和计算机设备 |
CN109872190A (zh) * | 2019-02-20 | 2019-06-11 | 北京亿百分科技有限公司 | 基于lda模型提取消费者对促销活动兴趣度的方法 |
CN110275952A (zh) * | 2019-05-08 | 2019-09-24 | 平安科技(深圳)有限公司 | 基于用户短期兴趣的新闻推荐方法、装置及介质 |
WO2020224128A1 (zh) * | 2019-05-08 | 2020-11-12 | 平安科技(深圳)有限公司 | 基于用户短期兴趣的新闻推荐方法及装置、电子设备及介质 |
CN110191363A (zh) * | 2019-05-31 | 2019-08-30 | 电子科技大学 | 一种面向家庭组用户的推荐模型 |
CN110191363B (zh) * | 2019-05-31 | 2020-05-01 | 电子科技大学 | 一种面向家庭组用户的推荐方法 |
CN110297887A (zh) * | 2019-06-26 | 2019-10-01 | 山东大学 | 基于云平台的服务机器人个性化对话系统及方法 |
CN110297887B (zh) * | 2019-06-26 | 2021-07-27 | 山东大学 | 基于云平台的服务机器人个性化对话系统及方法 |
CN111563177A (zh) * | 2020-05-15 | 2020-08-21 | 深圳掌酷软件有限公司 | 一种基于余弦算法的主题壁纸推荐方法及系统 |
CN111563177B (zh) * | 2020-05-15 | 2023-05-23 | 深圳掌酷软件有限公司 | 一种基于余弦算法的主题壁纸推荐方法及系统 |
CN114742569A (zh) * | 2021-01-08 | 2022-07-12 | 广州视源电子科技股份有限公司 | 用户生命阶段预测方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108446350B (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446350A (zh) | 一种基于主题模型分析与用户长短兴趣的推荐方法 | |
CN110297848A (zh) | 基于联邦学习的推荐模型训练方法、终端及存储介质 | |
CN102654860B (zh) | 一种个性化音乐推荐方法及系统 | |
CN109299380B (zh) | 在线教育平台中基于多维特征的习题个性化推荐方法 | |
CN106548375A (zh) | 用于构建产品画像的方法和装置 | |
CN109783734A (zh) | 一种基于项目属性的混合协同过滤推荐算法 | |
CN109408665A (zh) | 一种信息推荐方法及装置、存储介质 | |
CN108550068A (zh) | 一种基于用户行为分析的个性化商品推荐方法及系统 | |
CN106777139A (zh) | 基于阅读时间的用户阅读偏好统计的个性化推送方法 | |
CN102902744A (zh) | 一种图书推荐方法 | |
CN107562947A (zh) | 一种移动时空感知下动态即时推荐服务模型建立方法 | |
KR20130130731A (ko) | 위치-기반 개체에 대해 실시간으로 맞춤형 추천을 하는 방법 | |
CN106372249A (zh) | 一种点击率预估方法、装置及电子设备 | |
CN109978660A (zh) | 一种基于强化学习框架的推荐系统离线训练方法 | |
CN109902235A (zh) | 基于蝙蝠优化的用户偏好聚类协同过滤推荐算法 | |
CN106202073A (zh) | 音乐推荐方法及系统 | |
CN108132964A (zh) | 一种基于用户对项目类评分的协同过滤方法 | |
CN110083764A (zh) | 一种协同过滤算法冷启动问题的解决方法 | |
CN108280124A (zh) | 产品分类方法及装置,排行榜生成方法及装置,电子设备 | |
CN109885719A (zh) | 一种歌曲推荐方法、系统、终端及存储介质 | |
CN109325171A (zh) | 基于领域知识的用户兴趣分析方法及系统 | |
Hu et al. | Trialing or combining? Understanding consumer partial switching in mobile application usage from the variety seeking perspective | |
CN110008404A (zh) | 基于nag动量优化的隐语义模型优化方法 | |
CN109933720A (zh) | 一种基于用户兴趣自适应演化的动态推荐方法 | |
CN108694234A (zh) | 一种基于改进协同过滤算法的服务推荐模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200519 |
|
CF01 | Termination of patent right due to non-payment of annual fee |