CN112182416B - 一种基于用户群体偏好的科技资源动态协同过滤推荐方法 - Google Patents
一种基于用户群体偏好的科技资源动态协同过滤推荐方法 Download PDFInfo
- Publication number
- CN112182416B CN112182416B CN202010945150.5A CN202010945150A CN112182416B CN 112182416 B CN112182416 B CN 112182416B CN 202010945150 A CN202010945150 A CN 202010945150A CN 112182416 B CN112182416 B CN 112182416B
- Authority
- CN
- China
- Prior art keywords
- resource
- user
- technological
- similarity
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001914 filtration Methods 0.000 title claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施例提供了一种基于用户群体偏好的科技资源动态协同过滤推荐方法。所述方法包括根据用户间的标签相似度和用户对科技资源的评分相似度计算用户间的相似度;将用户进行聚类,并构造科技资源的类别偏好矩阵;计算用户对目标科技资源与其他科技资源的类别偏好相似度,生成目标科技资源的候选邻居列表;计算每个科技资源与其前若干个科技资源的评分相似度,生成科技资源最近邻列表;将用户未评分的科技资源作为待预测科技资源,计算所述待预测科技资源的预测评分。以此方式,可以通过分析目标用户的相似用户群体的评分,对评分数据进行预测,生成的推荐结果与目标用户的兴趣匹配度一致性较高。
Description
技术领域
本发明的实施例一般涉及计算机技术领域,并且更具体地,涉及一种基于用户群体偏好的科技资源动态协同过滤推荐方法。
背景技术
协同过滤算法是推荐系统中应用最广泛的核心算法。协同过滤也被称为社会过滤(Social Filtering),这一概念最早是在1992年Goldber的研宄报告中提出来的,Goldberg等人应用Tapestry系统过滤出对用户有用的电子信件,但要求用户标注不愿意看到的信息,体现了系统与用户间的互动。至今,协同过滤技术己成功应用于各种推荐系统中,其核心思想是:机器本身缺乏情感要素,异致其筛选的内容存在缺陷,协同过滤就是通过分析用户的评价,排除无用的信息,挑选出符合用户期望的有效信息。协同过滤推荐算法的基本流程:计算用户群体或者物品群体的相似度,根据拥有相同或者相似兴趣的用户评价来推测目标用户对物品的评价。与基于内容的推荐算法不同,协同过滤算法分析目标用户的相似用户群体的兴趣爱好来挖掘目标用户的潜在兴趣,推荐质量高,这也是该技术得以广泛应用的最主要的原因。
传统的协同过滤算法的思想是利用用户-资源评分矩阵计算出用户间或者资源间的相似度,根据相似度得到近邻用户集或者邻居资源集,最后根据邻居集来预测评分产生Top-N推荐。但是传统的协同过滤算法都存在一个问题,它们只考虑了用户间或者科技资源间的评分相似性,没有考虑到用户兴趣变化,用户兴趣不是一成不变的,是随着时间的推移而变化的,现阶段用户感兴趣的内容,下阶段用户不一定依旧感兴趣。
发明内容
根据本发明的实施例,提供了一种基于用户群体偏好的科技资源动态协同过滤推荐方案。
在本发明的第一方面,提供了一种基于用户群体偏好的科技资源动态协同过滤推荐方法。该方法包括:
计算用户间的标签相似度以及计算用户对科技资源的评分相似度,根据所述用户间的标签相似度和用户对科技资源的评分相似度计算用户间的相似度;
将用户进行聚类,并构造科技资源的类别偏好矩阵;
根据所述科技资源的类别偏好矩阵,计算用户对目标科技资源与其他科技资源的类别偏好相似度,按照类别偏好相似度由从高到低对科技资源进行排列,生成目标科技资源的候选邻居列表;
计算所述目标科技资源的候选邻居列表中每个科技资源与其前若干个科技资源的评分相似度,生成科技资源最近邻列表;
将用户未评分的科技资源作为待预测科技资源,从所述科技资源最邻近列表中识别所述待预测科技资源所在行,并顺序提取前若干个已评分的科技资源,计算所述待预测科技资源的预测评分。
进一步地,所述计算用户间的标签相似度,包括:
其中,simtag(u,v)为第一用户u和第二用户v之间的标签相似度;第一用户的标签向量表示为u=(u1,u2,u3,...um);第二用户的标签向量表示为v=(v1,v2,v3,...vm)。
进一步地,所述计算用户对科技资源的评分相似度,包括:
其中,wr是热门科技资源惩罚权值;Iuv表示同时被第一用户u和第二用户v调用过的科技资源,Ruj表示第一用户u对科技资源j的评分,Rvj表示第一用户u对科技资源j的评分,和/>表示第一用户u和第二用户v对所有不同科技资源的平均评分;simrating(u,v)表示第一用户u和第二用户v对科技资源的评分相似度。
进一步地,所述热门科技资源惩罚权值为:
其中,wr为热门科技资源惩罚权值;r为两个用户共同评分过的科技资源;Nr为所有用户中喜欢该类科技资源r的用户数。
进一步地,所述用户间的相似度为:
simunify(u,v)=α×simrating(u,v)+(1-α)×simtag(u,v)
其中,simrating(u,v)为第一用户u和第二用户v对科技资源的评分相似度;simtag(u,v)为第一用户u和第二用户v之间的标签相似度;α为第一平衡因子,且0<α<1。
进一步地,所述将用户进行聚类,并构造科技资源的类别偏好矩阵,包括:
步骤1:在用户对任一科技资源的评分矩阵中,将所述科技资源的已评分用户进行聚类,得到若干个用户类;
步骤2:计算所述科技资源在各个用户类上的类别偏好值;
重复上述步骤1和步骤2,直至计算出全部科技资源在对应用户类上的类别偏好值,生成科技资源的类别偏好矩阵。
进一步地,所述类别偏好值为:
Pz,s=|Cs∩Uz|/|Uz|
其中,Pz,s为科技资源z在用户类Cs上的类别偏好值,Cs∈C,C为经过聚类生成的用户类集合;Uz={u∈U|Ru,z≠Φ}表示对科技资源z进行过评分的用户集合。
进一步地,科技资源之间的评分相似度为:
其中,simrating′(p,q)为科技资源p和科技资源q的评分相似度;Rup为第一用户u对科技资源p的评分;Ruq为第一用户u对科技资源q的评分;为第一用户u对科技资源p的平均评分;/>为第一用户u对科技资源q的平均评分;Upq为用户对从科技资源p到科技资源q的评分。
进一步地,所述计算所述待预测科技资源的预测评分,包括:
f(tuj)=1-exp(-tuj)
其中,Rum为预测第一用户u对科技资源m的评分;simunity(m,j)为科技资源m和科技资源j之间的科技资源相似度;Ruj为第一用户u对科技资源j的评分;tuj表示第一用户u对科技资源j的评分时间。
在本发明的第二方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征,亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
本发明能够过滤掉难以处理的信息,通过分析目标用户的相似用户群体的评分,对评分数据进行预测,生成的推荐结果与目标用户的兴趣匹配度一致性较高;且由于协同过滤推荐是以其他相关用户的评分为基础,所以推荐列表会出现新的物品,而不仅仅是以前爱好的物品,引入其他用户的历史评分数据,丰富了数据内容。
附图说明
结合附图并参考以下详细说明,本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本发明的实施例的基于用户群体偏好的科技资源动态协同过滤推荐方法的流程图;
图2示出了能够实施本发明的实施例的示例性电子设备的方框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本发明中,能够过滤掉难以处理的信息,引入其他用户的历史评分数据,丰富了数据内容,通过分析目标用户的相似用户群体的评分,对评分数据进行预测,生成的推荐结果与目标用户的兴趣匹配度一致性较高,且由于协同过滤推荐是以其他相关用户的评分为基础,所以推荐列表会出现新的物品,而不仅仅是以前爱好的物品。。
图1示出了本发明实施例的基于用户群体偏好的科技资源动态协同过滤推荐方法的流程图。
该方法包括:
S100、计算用户间的标签相似度以及计算用户对科技资源的评分相似度,根据所述标签相似度和评分相似度计算用户间的相似度。
相似度计算方法的主要思想是将评分相似度和标签相似度线性结合。
在推荐技术应用过程中,“特征”这一属性可以在用户和数据资源之间形成联系,将那些符合用户兴趣偏好的内容推荐给用户。这里提到的“特征”的形式多种多样,比如可以是数据资源的属性集合,表现形式可以采用隐语义,而本方案是另外一种重要的表现形式——标签。标签是一种可以用来描述语义的无层次化结构的关键词。基于标签的推荐技术其工作原理就是利用丰富的关键词标签来将用户和数据资源联系起来。
利用标签,我们可以把用户和数据资源联系在一起。标签不仅能够描述用户的兴趣偏好,还能表现出数据资源的特征。基于标签的推荐技术通过对用户和数据资源建立标签,使得用户群和数据资源群划分更为明确,从而大大提高了推荐结果的针对性。与此同时,基于标签的推荐技术展示了对不同标签的用户的推荐结果,这也提高了推荐效果的多样性和可解释性,提升了用户体验。
作为本发明的一种实施例,在推荐系统中存在两种类型的标签,一种是领域专家预先标注的标签,这些标签描述了科技资源的类型等特征属性,具有一定的权威性。另一种就是用户在浏览系统的过程中根据自己的喜好给科技资源标注的标签,这类标签暗示着用户对科技资源的偏好信息,但是用户对科技资源的标签完全是自由标注的,同一个科技资源,不同用户的标签信息并不一致,所以导致了标签系统中出现“垃圾标签”的现象。将文本标签集转化成数字型向量便于相似度计算。对于用户来说,用户的标签就是描述用户性别、年龄、职业等人口统计学特征。我们将年龄分为不同的年龄段,每个年龄段用一个数字表示,性别只有男女两种,用两个数字表示。
假设用户1(或者资源1)的标签向量为u=(u1,u2,u3…um),用户2(或者资源2)的标签向量为v=(v1,v2,v3…vm),利用余弦相似性来计算向量u和v之间的相似度:
其中,simtag(u,v)为第一用户u和第二用户v之间的标签相似度;第一用户的标签向量表示为u=(u1,u2,u3,...um);第二用户的标签向量表示为v=(v1,v2,v3,...vn)。
所述计算用户对科技资源的评分相似度,包括:
其中,wr是热门科技资源惩罚权值;Iuv表示同时被第一用户u和第二用户v调用过的科技资源,Ruj表示第一用户u对科技资源j的评分,Rvj表示第一用户u对科技资源j的评分,和/>表示第一用户u和第二用户v对所有不同科技资源的平均评分;simrating(u,v)表示第一用户u和第二用户v对科技资源的评分相似度。
传统的基于用户的推荐算法计算用户之间相似度时只考虑到了两个用户共同评分过的科技资源,并没有考虑到用户评分过的科技资源的热门程度对用户之间的相似度的影响。两个用户对非热门的科技资源产生兴趣更能表明他们之间有相同的偏好。为了减少热门科技资源对用户间相似度的影响,引入热门科技资源惩罚权值wr。
所述热门科技资源惩罚权值为:
其中,wr为热门科技资源惩罚权值;r为两个用户共同评分过的科技资源;Nr为所有用户中喜欢该类科技资源r的用户数。
喜欢科技资源i的用户越多,说明该科技资源越热门,那么就赋予它较小的权值,降低两个用户共同兴趣列表中热门科技资源对用户间相似度的影响。
在上述过程中已经得到了用户间的标签相似度和用户对科技资源的评分相似度,利用标签相似度和评分相似度计算用户间的相似度:
simunify(u,v)=α×simrating(u,v)+(1-α)×simtag(u,v)
其中,simrating(u,v)为第一用户u和第二用户v对科技资源的评分相似度;simtag(u,v)为第一用户u和第二用户v之间的标签相似度;α为第一平衡因子,且0<α<1。
S200、将用户进行聚类,并构造科技资源的类别偏好矩阵。
具体包括:
S210、在用户对任一科技资源的评分矩阵中,将所述科技资源的已评分用户进行聚类,得到若干个用户类。
科技资源的评分矩阵为R(m,n),表示用户m对科技资源n的评分矩阵,将科技资源的评分矩阵R(m,n)中已评分的用户聚类成用户集合Uj={u∈U|Ru,1≠Φ}。
S220、计算所述科技资源在各个用户类上的类别偏好值。
所述类别偏好值为:
Pz,s=|Cs∩Uz|/|Uz|
其中,Pz,s为科技资源z在用户类Cs上的类别偏好值,Cs∈C,C为经过聚类生成的用户类集合;Uz={u∈U|Ru,z≠Φ}表示对科技资源z进行过评分的用户集合,则称Pz,s=|cs∩Uz|/|Uz|(0≤Pz,s≤1)为科技资源z在cs上的类别偏好值,cs为某一用户类。
迭代上述S210和S220,直至计算出全部科技资源在对应用户类上的类别偏好值,生成科技资源的类别偏好矩阵。
作为本发明的一种实施例,科技资源的类别偏好矩阵P(n,p)为n行l列,行数表示有n个项目,列数表示有l个用户类群体,Pi,s表示用户类群体s对第i个项目的偏好值。
S300、根据所述科技资源的类别偏好矩阵,计算用户对目标科技资源与其他科技资源的类别偏好相似度,按照类别偏好相似度由从高到低对科技资源进行排列,生成目标科技资源的候选邻居列表。
用户对目标科技资源与其他科技资源的类别偏好相似度为:
其中,simratinq′(x,y)为目标科技资源x和其他科技资源y的类别偏好相似度;Rux为第一用户u对目标科技资源x的偏好值;Ruy为第一用户u对其他科技资源y的偏好值;为第一用户u对目标科技资源x的平均偏好值;/>为第一用户u对其他科技资源y的平均偏好值;Uxy为用户对从目标科技资源x到其他科技资源y的类别偏好值。
如上述过程依次计算目标科技资源x与其他若干个科技资源的类别偏好相似度,按照得出的类别偏好相似度的大小,由大到小对科技资源进行排列,得到目标科技资源的候选邻居列表Tcn。
S400、计算所述目标科技资源的候选邻居列表中每个科技资源与其前若干个科技资源的评分相似度,生成科技资源最近邻列表。
作为本发明的一种实施例,从所述目标科技资源的候选邻居列表Tcn中,选择其所在行前k’个科技资源,计算其评分相似度,包括:
其中,simrating′(p,q)为科技资源p和科技资源q的评分相似度;Rup为用户u对科技资源p的评分;Ruq为用户u对科技资源q的评分;为用户u对科技资源p的平均评分;/>为用户u对科技资源q的平均评分;Upq为用户对从科技资源p到科技资源q的评分。
S500、将用户未评分的科技资源作为待预测科技资源,从所述科技资源最邻近列表中识别所述待预测科技资源所在行,并顺序提取前若干个已评分的科技资源,计算所述待预测科技资源的预测评分。
作为本发明的一种实施例,从科技资源最近邻列表Tnn中顺序提取前k个已评分的科技资源,计算待预测科技资源的预测评分:
f(tuj)=1-exp(-tuj)
其中,Rum为预测第一用户u对科技资源m的评分;simunity(m,j)为科技资源m和第二科技资源j之间的科技资源相似度;Ruj为第一用户u对第二科技资源j的评分;tuj表示第一用户u对科技资源j的评分时间。
上述S100~S400在离线状态下进行处理,S500为在线状态下处理。相比于用户群体增加的速度,科技资源增加的速度相对缓慢,所以系统中的科技资源性质比较稳定,S100~S400的步骤只需要定期离线计算一次即可,对推荐速度没有影响。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
如图2所示,电子设备包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的计算机程序指令或者从存储单元加载到随机访问存储器(RAM)中的计算机程序指令,来执行各种适当的动作和处理。在RAM中,还可以存储设备操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
电子设备中的多个部件连接至I/O接口,包括:输入单元,例如键盘、鼠标等;输出单元,例如各种类型的显示器、扬声器等;存储单元,例如磁盘、光盘等;以及通信单元,例如网卡、调制解调器、无线通信收发机等。通信单元允许电子设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元执行上文所描述的各个方法和处理,例如方法S100~S500。例如,在一些实施例中,方法S100~S500可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元。在一些实施例中,计算机程序的部分或者全部可以经由ROM和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到RAM并由CPU执行时,可以执行上文描述的方法S100~S500的一个或多个步骤。备选地,在其他实施例中,CPU可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法S100~S500。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (8)
1.一种基于用户群体偏好的科技资源动态协同过滤推荐方法,其特征在于,包括:
计算用户间的标签相似度以及计算用户对科技资源的评分相似度,根据所述用户间的标签相似度和用户对科技资源的评分相似度计算用户间的相似度;
将用户进行聚类,并构造科技资源的类别偏好矩阵;
根据所述科技资源的类别偏好矩阵,计算用户对目标科技资源与其他科技资源的类别偏好相似度,按照类别偏好相似度由从高到低对科技资源进行排列,生成目标科技资源的候选邻居列表;
计算所述目标科技资源的候选邻居列表中每个科技资源与其前若干个科技资源的评分相似度,生成科技资源最近邻列表;
将用户未评分的科技资源作为待预测科技资源,从所述科技资源最邻近列表中识别所述待预测科技资源所在行,并顺序提取前若干个已评分的科技资源,计算所述待预测科技资源的预测评分;
所述计算用户对科技资源的评分相似度,包括:
其中,wr是热门科技资源惩罚权值;Iuv表示同时被第一用户u和第二用户v调用过的科技资源,Ruj表示第一用户u对科技资源j的评分,Rvj表示第一用户u对科技资源j的评分,和/>表示第一用户u和第二用户v对所有不同科技资源的平均评分;simrating(u,v)表示第一用户u和第二用户v对科技资源的评分相似度;
所述计算所述待预测科技资源的预测评分,包括:
f(tuj)=1-exp(-tuj)
其中,Rum为预测第一用户u对科技资源m的评分;simunity(m,j)为科技资源m和科技资源j之间的科技资源相似度;Ruj为第一用户u对科技资源j的评分;tuj表示第一用户u对科技资源j的评分时间。
2.根据权利要求1所述的方法,其特征在于,所述计算用户间的标签相似度,包括:
其中,simtag(u,v)为第一用户u和第二用户v之间的标签相似度;第一用户的标签向量表示为u=(u1,u2,u3,…um);第二用户v的标签向量表示为v=(v1,v2,v3,…vm)。
3.根据权利要求1所述的方法,其特征在于,所述热门科技资源惩罚权值为:
其中,wr为热门科技资源惩罚权值;r为两个用户共同评分过的科技资源;Nr为所有用户中喜欢该类科技资源r的用户数。
4.根据权利要求1所述的方法,其特征在于,所述用户间的相似度为:
simunify(u,v)=α×simrating(u,v)+(1-α)×simtag(u,v)
其中,simrating(u,v)为第一用户u和第二用户v对科技资源的评分相似度;simtag(u,v)为第一用户u和第二用户v之间的标签相似度;α为第一平衡因子,且0<α<1。
5.根据权利要求1所述的方法,其特征在于,所述将用户进行聚类,并构造科技资源的类别偏好矩阵,包括:
步骤1:在用户对任一科技资源的评分矩阵中,将所述科技资源的已评分用户进行聚类,得到若干个用户类;
步骤2:计算所述科技资源在各个用户类上的类别偏好值;
重复上述步骤1和步骤2,直至计算出全部科技资源在对应用户类上的类别偏好值,生成科技资源的类别偏好矩阵。
6.根据权利要求5所述的方法,其特征在于,所述类别偏好值为:
Pz,s=|Cs∩Uz|/|Uz|
其中,Pz,s为科技资源z在用户类Cs上的类别偏好值,Cs∈C,C为经过聚类生成的用户类集合;Uz={u∈U|Ru,z≠Φ}表示对科技资源z进行过评分的用户集合。
7.根据权利要求1所述的方法,其特征在于,科技资源之间的评分相似度为:
其中,simrating′(o,q)为科技资源p和科技资源q的评分相似度;Rup为第一用户u对科技资源p的评分;Ruq为第一用户u对科技资源q的评分;为第一用户u对科技资源p的平均评分;/>为第一用户u对科技资源q的平均评分;Upq为用户对从科技资源p到科技资源q的评分。
8.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010945150.5A CN112182416B (zh) | 2020-09-10 | 2020-09-10 | 一种基于用户群体偏好的科技资源动态协同过滤推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010945150.5A CN112182416B (zh) | 2020-09-10 | 2020-09-10 | 一种基于用户群体偏好的科技资源动态协同过滤推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182416A CN112182416A (zh) | 2021-01-05 |
CN112182416B true CN112182416B (zh) | 2024-02-02 |
Family
ID=73920448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010945150.5A Active CN112182416B (zh) | 2020-09-10 | 2020-09-10 | 一种基于用户群体偏好的科技资源动态协同过滤推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182416B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157752B (zh) * | 2021-03-12 | 2022-10-28 | 北京航空航天大学 | 一种基于用户画像和情境的科技资源推荐方法及系统 |
CN113239185B (zh) * | 2021-07-13 | 2021-10-29 | 深圳市创能亿科科技开发有限公司 | 教学课件的制作方法、设备及计算机可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101431485A (zh) * | 2008-12-31 | 2009-05-13 | 深圳市迅雷网络技术有限公司 | 一种自动推荐互联网上信息的方法及系统 |
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
CN103473354A (zh) * | 2013-09-25 | 2013-12-25 | 焦点科技股份有限公司 | 基于电子商务平台的保险推荐系统框架及保险推荐方法 |
CN103763361A (zh) * | 2014-01-13 | 2014-04-30 | 北京奇虎科技有限公司 | 一种基于用户行为推荐应用的方法、系统及推荐服务器 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
CN104915861A (zh) * | 2015-06-15 | 2015-09-16 | 浙江经贸职业技术学院 | 基于评分和标签构建用户群体模型的电子商务推荐方法 |
CN106682151A (zh) * | 2016-12-23 | 2017-05-17 | 长沙理工大学 | 一种教育资源个性化推荐方法及系统 |
CN107194754A (zh) * | 2017-04-11 | 2017-09-22 | 美林数据技术股份有限公司 | 基于混合协同过滤的券商产品推荐方法 |
CN108256093A (zh) * | 2018-01-29 | 2018-07-06 | 华南理工大学 | 一种基于用户多兴趣及兴趣变化的协同过滤推荐算法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160191450A1 (en) * | 2014-12-31 | 2016-06-30 | Socialtopias, Llc | Recommendations Engine in a Layered Social Media Webpage |
US10977322B2 (en) * | 2015-11-09 | 2021-04-13 | WP Company, LLC | Systems and methods for recommending temporally relevant news content using implicit feedback data |
-
2020
- 2020-09-10 CN CN202010945150.5A patent/CN112182416B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101431485A (zh) * | 2008-12-31 | 2009-05-13 | 深圳市迅雷网络技术有限公司 | 一种自动推荐互联网上信息的方法及系统 |
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
CN103473354A (zh) * | 2013-09-25 | 2013-12-25 | 焦点科技股份有限公司 | 基于电子商务平台的保险推荐系统框架及保险推荐方法 |
CN103763361A (zh) * | 2014-01-13 | 2014-04-30 | 北京奇虎科技有限公司 | 一种基于用户行为推荐应用的方法、系统及推荐服务器 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
CN104915861A (zh) * | 2015-06-15 | 2015-09-16 | 浙江经贸职业技术学院 | 基于评分和标签构建用户群体模型的电子商务推荐方法 |
CN106682151A (zh) * | 2016-12-23 | 2017-05-17 | 长沙理工大学 | 一种教育资源个性化推荐方法及系统 |
CN107194754A (zh) * | 2017-04-11 | 2017-09-22 | 美林数据技术股份有限公司 | 基于混合协同过滤的券商产品推荐方法 |
CN108256093A (zh) * | 2018-01-29 | 2018-07-06 | 华南理工大学 | 一种基于用户多兴趣及兴趣变化的协同过滤推荐算法 |
Non-Patent Citations (4)
Title |
---|
personalized collaborative filtering recommendation algorithm based on linear regression;jia wu等;2019 IEEE international conference on power data science;139-142 * |
基于情景上下文与信任关系的旅游景点推荐算法;沈记全;王磊;侯占伟;薛霄;;计算机应用研究;第35卷(第12期);3640-3643 * |
融合上下文感知计算的协同过滤算法;杨媛媛;张桂芸;刘洋;;天津师范大学学报(自然科学版);第38卷(第06期);63-67 * |
面向知识迁移的跨领域推荐算法研究进展;任豪等;计算机科学与探索;第14卷(第11期);1813-1827 * |
Also Published As
Publication number | Publication date |
---|---|
CN112182416A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874992B (zh) | 舆情分析方法、系统、计算机设备和存储介质 | |
US10685065B2 (en) | Method and system for recommending content to a user | |
CN107679217B (zh) | 基于数据挖掘的关联内容提取方法和装置 | |
US7433879B1 (en) | Attribute based association rule mining | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
US11741094B2 (en) | Method and system for identifying core product terms | |
CN111061962A (zh) | 一种基于用户评分分析的推荐方法 | |
CN109785064A (zh) | 一种基于多源信息融合的移动电子商务推荐方法和系统 | |
CN112182416B (zh) | 一种基于用户群体偏好的科技资源动态协同过滤推荐方法 | |
CN107797982A (zh) | 用于识别文本类型的方法、装置和设备 | |
CN110827112A (zh) | 深度学习的商品推荐方法、装置、计算机设备及存储介质 | |
CN111177538A (zh) | 一种基于无监督权值计算的用户兴趣标签构建方法 | |
US10922725B2 (en) | Automatic rule generation for recommendation engine using hybrid machine learning | |
CN112685635A (zh) | 基于分类标签的项目推荐方法、装置、服务器和存储介质 | |
CN112765230A (zh) | 基于互联网金融的支付大数据分析方法及大数据分析系统 | |
CN115033801A (zh) | 物品推荐方法、模型训练方法及电子设备 | |
Liu et al. | Product optimization design based on online review and orthogonal experiment under the background of big data | |
CN116739626A (zh) | 商品数据挖掘处理方法、装置、电子设备及可读介质 | |
CN112860850B (zh) | 人机交互方法、装置、设备及存储介质 | |
CN113269232A (zh) | 模型训练方法、向量化召回方法、相关设备及存储介质 | |
Kundu et al. | Finding active experts for question routing in community question answering services | |
CN113743973A (zh) | 分析市场热点趋势的方法和装置 | |
CN113688636A (zh) | 扩展问的推荐方法、装置、计算机设备和存储介质 | |
CN109978645B (zh) | 一种数据推荐方法和装置 | |
CN113342969A (zh) | 数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |