CN104156436B - 一种社交云媒体协同过滤推荐方法 - Google Patents

一种社交云媒体协同过滤推荐方法 Download PDF

Info

Publication number
CN104156436B
CN104156436B CN201410395409.8A CN201410395409A CN104156436B CN 104156436 B CN104156436 B CN 104156436B CN 201410395409 A CN201410395409 A CN 201410395409A CN 104156436 B CN104156436 B CN 104156436B
Authority
CN
China
Prior art keywords
user
project
users
scoring
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410395409.8A
Other languages
English (en)
Other versions
CN104156436A (zh
Inventor
郑相涵
陈国龙
汪孔炤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201410395409.8A priority Critical patent/CN104156436B/zh
Publication of CN104156436A publication Critical patent/CN104156436A/zh
Application granted granted Critical
Publication of CN104156436B publication Critical patent/CN104156436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种社交云媒体协同过滤推荐方法,包括以下步骤:获取多个微博用户及其关联用户所发微博;构建用于反映不同用户对不同项目评分大小的对应关系的用户项目评分矩阵;计算关联用户对项目的影响评分;计算微博用户的特征向量;计算微博用户的特征相似度;计算与微博用户相似的相似用户对项目的影响评分;根据关联用户对项目的影响评分以及相似用户对项目的影响评分,更新用户项目评分矩阵;挖掘网络资源,对更新后的用户项目评分矩阵进行扩展;对用户项目评分矩阵分别进行基于用户和基于项目的聚类;使用聚类得到的类簇作为近邻搜索域,采用协同过滤推荐预测评分。该方法可以准确地向用户推荐他们感兴趣的网络信息内容。

Description

一种社交云媒体协同过滤推荐方法
技术领域
本发明涉及网络信息推送技术领域,特别涉及一种应用于社交网络的社交云媒体协同过滤推荐方法。
背景技术
推荐系统的目的在于在用户和信息中建立连接,一方面帮助用户找出对自己有意义的信息,另一方面帮助信息展现在对他感兴趣的用户前,从而实现用户和信息供应商的双赢。通过对社交网络中用户数据的分析,可以得到用户的主题兴趣和用户之间的信任关系。而对应的媒体服务提供商,则可以通过对此分析有针对性的向用户进行推荐图书、音视频、商品等。这对于信息提供商来说提高了推送信息的准确度,而对用户来说也能够获取更准确的信息,帮助用户提高获取信息的效率。
协同过滤推荐算法的基本假设是:为用户推荐感兴趣的内容可通过找到与该用户偏好相似的其他用户,将他们感兴趣的内容推荐给该用户。针对信息超载问题,虽然传统个性化推荐技术已经较为成熟,但随着推荐环境的复杂化、系统中海量信息数据的不断增长和用户需求的不断提高,传统个性化推荐技术在社会化媒体平台的应用中忽略了用户的社交关系,不仅难以保证推荐的准确度,还存在管理难、分析难等问题。
发明内容
本发明的目的在于提供一种社交云媒体协同过滤推荐方法,该方法可以准确地向用户推荐他们感兴趣的网络信息内容。
为实现上述目的,本发明采用的技术方案是:一种社交云媒体协同过滤推荐方法,包括以下步骤:
步骤1:获取多个微博用户以及与该些微博用户存在社交关系的关联用户所发微博;
步骤2:根据步骤1获取的微博用户所发微博,构建用于反映不同用户对不同项目评分大小的对应关系的用户项目评分矩阵;
步骤3:根据步骤1获取的关联用户所发微博,计算与微博用户存在社交关系的关联用户对项目的影响评分;
步骤4:计算微博用户的特征向量;
步骤5:根据步骤4得到的微博用户的特征向量,计算微博用户的特征相似度;
步骤6:根据步骤5得到的微博用户的特征相似度,计算与微博用户相似的相似用户对项目的影响评分;
步骤7:根据步骤3得到的关联用户对项目的影响评分以及步骤6得到的相似用户对项目的影响评分,更新用户项目评分矩阵;
步骤8:挖掘网络资源,对步骤7更新后的用户项目评分矩阵进行扩展;
步骤9:对步骤8得到的用户项目评分矩阵分别进行基于用户和基于项目的聚类;
步骤10:使用步骤9聚类得到的类簇作为近邻搜索域,采用协同过滤推荐预测评分。
进一步的,在步骤2中,用户项目评分矩阵的构建方法为:从获取的微博中提取所有用户所感兴趣的内容,以此构建项目集;分别根据用户所发微博中是否涉及项目集中的项目,以及对项目的评价情况,得到不同用户对不同项目的评分,进而得到用户项目评分矩阵。
进一步的,在步骤3中,按如下方法计算关联用户对项目的影响评分:记用户i对项目k评分为Rik,社交网络中存在着关注与被关注的关系,则用户i的关联用户对项目k的影响评分FIik按如下公式计算:
其中,Rjk为关联用户j对项目k的评分,n为用户i的关联用户中对项目k有评分的用户总数。
进一步的,在步骤4中,微博用户的特征向量的计算方法为:
首先,对获取的微博进行预处理,包括中文分词和停用词处理;中文分词的方法为:采用中文分词系统,结合自定义的用户词典对微博信息进行分词,停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤,从而降低微博信息的噪音;
然后,采用TF-IDF算法对预处理的结果进行处理,具体公式如下:
词频TF=一个词在一用户微博中出现的次数/所述用户微博中总词数
逆文档频率IDF=log(微博用户总数/微博中提到所述词的用户总数)
将得到的TF和IDF相乘得到TF-IDF,进而得到微博用户的特征向量(W1,W2,W3….),其中Wi即词i的TF-IDF。
进一步的,在步骤5中,微博用户的特征相似度的计算方法为:将步骤4中得到的各个用户的特征向量,按照相同的特征词排序后,代入余弦相似度公式计算用户Ua与用户Ub的相似度Sim(Ua, Ub):
其中,Wak表示用户a对特征词k的TF-IDF,n表示特征向量的长度。
进一步的,在步骤6中,按如下方法计算与微博用户相似的相似用户对项目的影响评分:记用户i对项目k的评分为Rik,记用户i与用户j的特征相似度为Sij,则用户i的相似用户对项目k的影响评分SIik按如下公式计算:
其中,Rpk为相似用户p对项目k的评分,N为相似用户总数。
进一步的,在步骤7中,按如下方法更新用户项目评分矩阵:
根据步骤3得到的关联用户对项目的影响评分,以及步骤6得到的相似用户对项目的影响评分,按如下公式更新用户项目评分矩阵;
其中,R’ik为更新后的用户项目评分矩阵中用户i对项目k的评分,Rik为更新前的用户项目评分矩阵中用户i对项目k的评分,ε为关联影响因子,θ为相似影响因子,通过调整关联影响因子和相似影响因子,更改待推荐用户对关联用户以及相似用户的信任度。
进一步的,在步骤8中,挖掘网络资源,扩展更新后的用户项目评分矩阵的方法为:使用网络爬虫开源项目WebMagic根据步骤7的用户项目评分矩阵的项目集从各个有评分的网站中挖掘不同用户对不同项目的评分,并将用户对所有项目集内项目的评分作为新的一行,拓展步骤7更新后的用户项目评分矩阵。
进一步的,在步骤9中,对用户项目评分矩阵分别进行基于用户和基于项目的聚类的方法为:聚类采用K-means算法,算法邻近度函数为余弦相似度函数,聚类中心为类簇中向量的均值,目标为最大化对象与其聚类中心的余弦相似度和;
在对用户的聚类中,向量是以用户i对项目1到n的评分(Ri1, Ri2, …, Rin)来表示,同时其相似度计算公式为:
其中,Ruk表示用户U对项目k的评分,Rck表示聚类中心C对项目K的评分;Sim(U,C)表示用户U和聚类中心C的相似度;
与之对应,在对项目的聚类中,向量是以项目i被用户1到m的评分(Ri1, Ri2, …,Rim)来表示,其相似度计算公式为:
其中,Rik表示项目I被用户k的评分,Rjk表示聚类中心C被用户k的评分;Sim(I,C)表示项目I和聚类中心C的相似度;
计算过程过程:
1)随机选取k个用户或项目作为初始中心点;
2)计算剩余用户或项目与各个中心点的相似度,并将用户或项目分配给相似度最大的类簇;
3)计算各个类簇中所有用户或项目的均值作为新的类簇中心点;
4)中心点如果改变进入步骤2),否则算法结束。
进一步的,在步骤10中,协同过滤推荐包括基于用户的协同过滤推荐,和基于项目的协同过滤推荐;步骤10与步骤9相对应,即基于用户的协同过滤推荐采用的是基于用户的聚类结果作为近邻搜索域,反之,基于项目的协同过滤推荐采用的是基于项目的聚类结果作为近邻搜索域;
在预测评分阶段,首先在聚类簇中找到目标用户或项目所属聚类簇,然后计算该用户或项目与同一聚类簇中剩余用户或项目的相似度,选择K个与目标用户或项目具有最大相似度的用户或项目,最后根据如下公式进行预测评分:
上式表示基于用户进行推荐,Rui表示用户u对项目i的预测评分,表示用户u对所有项目的平均评分,Sim(u, v)表示用户u与用户v的相似度,计算公式与步骤9的公式1相同,表示k个与目标用户相似度最大的用户,表示用户v对所有项目的平均评分;
上式表示基于项目进行推荐,Riu表示项目i对应用户u的预测评分,表示项目i所有被评分的平均评分,Sim(i, j)表示项目i与项目j的相似度,计算公式与步骤9的公式2相同,表示k个与目标项目相似度最大的项目,表示项目j所有被评分的平均评分。
本发明的有益效果是面向微博数据,采用推荐模型混合技术构造微博用户兴趣模型,从而实现对微博用户的媒体推荐。本发明首先对用户微博内容进行抓取、分析、构建用户项目矩阵,通过分词技术提取用户特征,根据特征值计算用户近邻,结合社交网络特性更新用户项目矩阵,在此基础上,对存在的媒体资源采用基于聚类分析的协同过滤推荐算法实现对微博用户的资源推荐,避免协同推荐中过度依赖相似度的问题,减少搜索近邻的消耗,改善了推荐算法,可以准确地向用户推荐他们感兴趣的网络信息内容。
附图说明
图1是本发明实施例的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明的社交云媒体协同过滤推荐方法,如图1所示,包括以下步骤:
步骤1:获取多个微博用户以及与该些微博用户存在社交关系的关联用户所发微博。
步骤2:根据步骤1获取的微博用户所发微博,构建用于反映不同用户对不同项目评分大小的对应关系的用户项目评分矩阵。
在步骤2中,用户项目评分矩阵的构建方法为:从步骤1获取的微博中提取所有用户所感兴趣的内容,包括电影、音乐、书籍等,以此构建项目集;分别根据用户所发微博中是否涉及项目集中的项目,以及对项目的评价情况,得到不同用户对不同项目的评分,进而得到用户项目评分矩阵。举例而言,若某一用户的微博中提及项目集中的项目,则认定此用户对该项目有评分;评分范围为[1-5]分,可以定义基础评分为3分,同时根据此条微博中是否表明用户对项目的态度(含不错、好看、乏味…)在基础评分上适当加减分,项目集中用户未提及的则缺失该项目评分。
步骤3:根据步骤1获取的关联用户所发微博,计算与微博用户存在社交关系的关联用户对项目的影响评分。
在步骤3中,按如下方法计算关联用户对项目的影响评分:记用户i对项目k评分为Rik,社交网络中存在着关注与被关注的关系,则用户i的关联用户对项目k的影响评分FIik按如下公式计算:
其中,Rjk为关联用户j对项目k的评分,n为用户i的关联用户中对项目k有评分的用户总数。
步骤4:计算微博用户的特征向量。
在步骤4中,微博用户的特征向量的计算方法为:
首先,对获取的微博进行预处理,包括中文分词和停用词处理;中文分词的方法为:采用中文分词系统,结合自定义的用户词典对微博信息进行分词,停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤,从而降低微博信息的噪音;
然后,采用TF-IDF算法对预处理的结果进行处理,具体公式如下:
词频(Term Frequency, TF)=一个词在一用户微博中出现的次数/所述用户微博中总词数
逆文档频率(Inverse Document Frequency, IDF)=log(微博用户总数/微博中提到所述词的用户总数)
将得到的TF和IDF相乘得到TF-IDF,进而得到微博用户的特征向量(W1,W2,W3….),其中Wi即词i的TF-IDF。
步骤5:根据步骤4得到的微博用户的特征向量,计算微博用户的特征相似度。
在步骤5中,微博用户的特征相似度的计算方法为:将步骤4中得到的各个用户的特征向量,按照相同的特征词排序后,代入余弦相似度公式计算用户Ua与用户Ub的相似度Sim(Ua, Ub):
其中,Wak表示用户a对特征词k的TF-IDF,n表示特征向量的长度。
步骤6:根据步骤5得到的微博用户的特征相似度,计算与微博用户相似的相似用户对项目的影响评分。
在步骤6中,按如下方法计算与微博用户相似的相似用户对项目的影响评分:两用户相似则表示其兴趣有一定的相似度,即一用户的评分对另一用户有适当参考价值;记用户i对项目k的评分为Rik,记用户i与用户j的特征相似度为Sij,则用户i的相似用户对项目k的影响评分SIik按如下公式计算:
其中,Rpk为相似用户p对项目k的评分,N为相似用户总数。
步骤7:根据步骤3得到的关联用户对项目的影响评分以及步骤6得到的相似用户对项目的影响评分,更新用户项目评分矩阵。
在步骤7中,按如下方法更新用户项目评分矩阵:
根据步骤3得到的关联用户对项目的影响评分,以及步骤6得到的相似用户对项目的影响评分,按如下公式更新用户项目评分矩阵;
其中,R’ik为更新后的用户项目评分矩阵中用户i对项目k的评分,Rik为更新前的用户项目评分矩阵中用户i对项目k的评分,ε为关联影响因子,θ为相似影响因子,通过调整关联影响因子和相似影响因子,更改待推荐用户对关联用户以及相似用户的信任度。
步骤8:挖掘网络资源,对步骤7更新后的用户项目评分矩阵进行扩展。
在步骤8中,挖掘网络资源,扩展更新后的用户项目评分矩阵的方法为:使用网络爬虫开源项目WebMagic根据步骤7的用户项目评分矩阵的项目集从各个有评分的网站中挖掘不同用户对不同项目的评分,并将用户对所有项目集内项目的评分作为新的一行,拓展步骤7更新后的用户项目评分矩阵。
步骤9:对步骤8得到的用户项目评分矩阵分别进行基于用户和基于项目的聚类。
在步骤9中,对用户项目评分矩阵分别进行基于用户和基于项目的聚类的方法为:聚类采用K-means算法,算法邻近度函数为余弦相似度函数,聚类中心为类簇中向量的均值,目标为最大化对象与其聚类中心的余弦相似度和;
在对用户的聚类中,向量是以用户i对项目1到n的评分(Ri1, Ri2, …, Rin)来表示,同时其相似度计算公式为:
其中,Ruk表示用户U对项目k的评分,Rck表示聚类中心C对项目K的评分;Sim(U,C)表示用户U和聚类中心C的相似度;
与之对应,在对项目的聚类中,向量是以项目i被用户1到m的评分(Ri1, Ri2, …,Rim)来表示,其相似度计算公式为:
其中,Rik表示项目I被用户k的评分,Rjk表示聚类中心C被用户k的评分;Sim(I,C)表示项目I和聚类中心C的相似度;
计算过程过程:
1)随机选取k个用户或项目作为初始中心点;
2)计算剩余用户或项目与各个中心点的相似度,并将用户或项目分配给相似度最大的类簇;
3)计算各个类簇中所有用户或项目的均值作为新的类簇中心点;
4)中心点如果改变进入步骤2),否则算法结束。
步骤10:使用步骤9聚类得到的类簇作为近邻搜索域,采用协同过滤推荐预测评分。
在步骤10中,协同过滤推荐包括基于用户的协同过滤推荐,和基于项目的协同过滤推荐;步骤10与步骤9相对应,即基于用户的协同过滤推荐采用的是基于用户的聚类结果作为近邻搜索域,反之,基于项目的协同过滤推荐采用的是基于项目的聚类结果作为近邻搜索域;
在预测评分阶段,首先在聚类簇中找到目标用户或项目所属聚类簇,然后计算该用户或项目与同一聚类簇中剩余用户或项目的相似度,选择K个与目标用户或项目具有最大相似度的用户或项目,最后根据如下公式进行预测评分:
上式表示基于用户进行推荐,Rui表示用户u对项目i的预测评分,表示用户u对所有项目的平均评分,Sim(u, v)表示用户u与用户v的相似度,计算公式与步骤9的公式1相同,表示k个与目标用户相似度最大的用户,表示用户v对所有项目的平均评分;
上式表示基于项目进行推荐,Riu表示项目i对应用户u的预测评分,表示项目i所有被评分的平均评分,Sim(i, j)表示项目i与项目j的相似度,计算公式与步骤9的公式2相同,表示k个与目标项目相似度最大的项目,表示项目j所有被评分的平均评分。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (10)

1.一种社交云媒体协同过滤推荐方法,其特征在于,包括以下步骤:
步骤1:获取多个微博用户以及与该些微博用户存在社交关系的关联用户所发微博,所述关联用户是指存在关注与被关注关系的用户;
步骤2:根据步骤1获取的微博用户所发微博,构建用于反映不同用户对不同项目评分大小的对应关系的用户项目评分矩阵;
步骤3:根据步骤1获取的关联用户所发微博,计算与微博用户存在社交关系的关联用户对项目的影响评分;
步骤4:计算微博用户的特征向量;
步骤5:根据步骤4得到的微博用户的特征向量,计算微博用户的特征相似度;
步骤6:根据步骤5得到的微博用户的特征相似度,计算与微博用户相似的相似用户对项目的影响评分;
步骤7:根据步骤3得到的关联用户对项目的影响评分以及步骤6得到的相似用户对项目的影响评分,更新用户项目评分矩阵;
步骤8:挖掘网络资源,对步骤7更新后的用户项目评分矩阵进行扩展;
步骤9:对步骤8得到的用户项目评分矩阵分别进行基于用户和基于项目的聚类;
步骤10:使用步骤9聚类得到的类簇作为近邻搜索域,采用协同过滤推荐预测评分。
2.根据权利要求1所述的一种社交云媒体协同过滤推荐方法,其特征在于,在步骤2中,用户项目评分矩阵的构建方法为:从获取的微博中提取所有用户所感兴趣的内容,以此构建项目集;分别根据用户所发微博中是否涉及项目集中的项目,以及对项目的评价情况,得到不同用户对不同项目的评分,进而得到用户项目评分矩阵。
3.根据权利要求1所述的一种社交云媒体协同过滤推荐方法,其特征在于,在步骤3中,按如下方法计算关联用户对项目的影响评分:记用户i对项目k评分为Rik,社交网络中存在着关注与被关注的关系,则用户i的关联用户对项目k的影响评分FIik按如下公式计算:
FI i k = Σ j = 0 n R j k / n
其中,Rjk为关联用户j对项目k的评分,n为用户i的关联用户中对项目k有评分的用户总数。
4.根据权利要求1所述的一种社交云媒体协同过滤推荐方法,其特征在于,在步骤4中,微博用户的特征向量的计算方法为:
首先,对获取的微博进行预处理,包括中文分词和停用词处理;中文分词的方法为:采用中文分词系统,结合自定义的用户词典对微博信息进行分词,停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤,从而降低微博信息的噪音;
然后,采用TF-IDF算法对预处理的结果进行处理,具体公式如下:
词频TF=一个词在一用户微博中出现的次数/所述用户微博中总词数
逆文档频率IDF=log(微博用户总数/微博中提到所述词的用户总数)
将得到的TF和IDF相乘得到TF-IDF,进而得到微博用户的特征向量(W1,W2,W3….),其中Wi即词i的TF-IDF。
5.根据权利要求1所述的一种社交云媒体协同过滤推荐方法,其特征在于,在步骤5中,微博用户的特征相似度的计算方法为:将步骤4中得到的各个用户的特征向量,按照相同的特征词排序后,代入余弦相似度公式计算用户Ua与用户Ub的相似度Sim(Ua,Ub):
S i m ( U a , U b ) = c o s θ = Σ k = 1 n w a k × w b k Σ k = 1 n w a k 2 · Σ k = 1 n w b k 2
其中,Wak表示用户a对特征词k的TF-IDF,n表示特征向量的长度。
6.根据权利要求1所述的一种社交云媒体协同过滤推荐方法,其特征在于,在步骤6中,按如下方法计算与微博用户相似的相似用户对项目的影响评分:记用户i对项目k的评分为Rik,记用户i与用户j的特征相似度为Sij,则用户i的相似用户对项目k的影响评分SIik按如下公式计算:
SI i k = Σ p = 1 N S i p R p k / Σ p = 1 N S i p
其中,Rpk为相似用户p对项目k的评分,N为相似用户总数。
7.根据权利要求1所述的一种社交云媒体协同过滤推荐方法,其特征在于,在步骤7中,按如下方法更新用户项目评分矩阵:
根据步骤3得到的关联用户对项目的影响评分,以及步骤6得到的相似用户对项目的影响评分,按如下公式更新用户项目评分矩阵;
R′ik=(1-ε-θ)*Rik+ε*FIik+θ*SIik
其中,R′ik为更新后的用户项目评分矩阵中用户i对项目k的评分,Rik为更新前的用户项目评分矩阵中用户i对项目k的评分,ε为关联影响因子,θ为相似影响因子,通过调整关联影响因子和相似影响因子,更改待推荐用户对关联用户以及相似用户的信任度。
8.根据权利要求1所述的一种社交云媒体协同过滤推荐方法,其特征在于,在步骤8中,挖掘网络资源,扩展更新后的用户项目评分矩阵的方法为:使用网络爬虫开源项目WebMagic根据步骤7的用户项目评分矩阵的项目集从各个有评分的网站中挖掘不同用户对不同项目的评分,并将用户对所有项目集内项目的评分作为新的一行,拓展步骤7更新后的用户项目评分矩阵。
9.根据权利要求1所述的一种社交云媒体协同过滤推荐方法,其特征在于,在步骤9中,对用户项目评分矩阵分别进行基于用户和基于项目的聚类的方法为:聚类采用K-means算法,算法邻近度函数为余弦相似度函数,聚类中心为类簇中向量的均值,目标为最大化对象与其聚类中心的余弦相似度和;
在对用户的聚类中,向量是以用户i对项目1到n的评分(Ri1,Ri2,…,Rin)来表示,同时其相似度计算公式为:
S i m ( U , C ) = cos θ = Σ k = 1 n R u k × R c k Σ k = 1 n R u k 2 · Σ k = 1 n R c k 2
其中,Ruk表示用户U对项目k的评分,Rck表示聚类中心C对项目k的评分;Sim(U,C)表示用户U和聚类中心C的相似度;
与之对应,在对项目的聚类中,向量是以项目i被用户1到m的评分(Ri1,Ri2,…,Rim)来表示,其相似度计算公式为:
S i m ( I , C ) = cos θ = Σ k = 1 m R i k × R c k Σ k = 1 m R i k 2 · Σ k = 1 m R c k 2
其中,Rik表示项目I被用户k的评分,Rck表示聚类中心C被用户k的评分;Sim(I,C)表示项目I和聚类中心C的相似度;
计算过程过程:
1)随机选取k个用户或项目作为初始中心点;
2)计算剩余用户或项目与各个中心点的相似度,并将用户或项目分配给相似度最大的类簇;
3)计算各个类簇中所有用户或项目的均值作为新的类簇中心点;
4)中心点如果改变进入步骤2),否则算法结束。
10.根据权利要求1所述的一种社交云媒体协同过滤推荐方法,其特征在于,在步骤10中,协同过滤推荐包括基于用户的协同过滤推荐,和基于项目的协同过滤推荐;步骤10与步骤9相对应,即基于用户的协同过滤推荐采用的是基于用户的聚类结果作为近邻搜索域,反之,基于项目的协同过滤推荐采用的是基于项目的聚类结果作为近邻搜索域;
在预测评分阶段,首先在聚类簇中找到目标用户或项目所属聚类簇,然后计算该用户或项目与同一聚类簇中剩余用户或项目的相似度,选择K个与目标用户或项目具有最大相似度的用户或项目,最后根据如下公式进行预测评分:
R u i = R u ‾ + Σ v ∈ N u k S i m ( u , v ) ( R v i - R v ‾ ) Σ v ∈ N u k S i m ( u , v )
上式表示基于用户进行推荐,Rui表示用户u对项目i的预测评分,表示用户u对所有项目的平均评分,Sim(u,v)表示用户u与用户v的相似度,计算公式与步骤9的公式1相同,表示k个与目标用户相似度最大的用户,表示用户v对所有项目的平均评分;
R i u = R i ‾ + Σ j ∈ N i k S i m ( i , j ) ( R j u - R j ‾ ) Σ j ∈ N i k S i m ( i , j )
上式表示基于项目进行推荐,Riu表示项目i对应用户u的预测评分,表示项目i所有被评分的平均评分,Sim(i,j)表示项目i与项目j的相似度,计算公式与步骤9的公式2相同,表示k个与目标项目相似度最大的项目,表示项目j所有被评分的平均评分。
CN201410395409.8A 2014-08-13 2014-08-13 一种社交云媒体协同过滤推荐方法 Active CN104156436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410395409.8A CN104156436B (zh) 2014-08-13 2014-08-13 一种社交云媒体协同过滤推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410395409.8A CN104156436B (zh) 2014-08-13 2014-08-13 一种社交云媒体协同过滤推荐方法

Publications (2)

Publication Number Publication Date
CN104156436A CN104156436A (zh) 2014-11-19
CN104156436B true CN104156436B (zh) 2017-05-10

Family

ID=51881934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410395409.8A Active CN104156436B (zh) 2014-08-13 2014-08-13 一种社交云媒体协同过滤推荐方法

Country Status (1)

Country Link
CN (1) CN104156436B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156106B (zh) * 2015-04-03 2019-10-22 阿里巴巴集团控股有限公司 用户特征数据的计算方法和装置
CN105868237A (zh) * 2015-12-09 2016-08-17 乐视网信息技术(北京)股份有限公司 媒体数据推荐方法及服务器
CN105740473B (zh) * 2016-03-14 2021-03-02 腾讯科技(深圳)有限公司 用户生成内容展示方法和装置
CN105843860B (zh) * 2016-03-17 2019-03-22 山东大学 一种基于并行item-based协同过滤算法的微博关注推荐方法
CN106201465B (zh) * 2016-06-23 2020-08-21 扬州大学 面向开源社区的软件项目个性化推荐方法
CN106294859A (zh) * 2016-08-22 2017-01-04 南京邮电大学盐城大数据研究院有限公司 一种基于属性耦合矩阵分解的项目推荐方法
CN106373013A (zh) * 2016-08-24 2017-02-01 重庆大学 协作标准调整方法和协作标准调整装置
CN106649540B (zh) * 2016-10-26 2022-04-01 Tcl科技集团股份有限公司 一种视频推荐方法及系统
CN106649730B (zh) * 2016-12-23 2021-08-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN107688587B (zh) * 2017-02-15 2023-02-10 腾讯科技(深圳)有限公司 一种媒体信息展示方法及装置
US10958742B2 (en) * 2017-02-16 2021-03-23 International Business Machines Corporation Cognitive content filtering
CN108664484A (zh) 2017-03-28 2018-10-16 腾讯科技(北京)有限公司 媒体内容推荐方法及装置
CN107066582B (zh) * 2017-04-14 2020-06-26 聚好看科技股份有限公司 实现虚拟资源推荐的方法及装置
CN108415926B (zh) * 2018-01-15 2021-08-10 大连理工大学 一种消除原始评分数据评分噪声的协同过滤推荐方法
CN108197332B (zh) * 2018-02-13 2021-09-28 江苏派智信息科技有限公司 社会网中基于主题兴趣的影响最大化方法
CN108647724A (zh) * 2018-05-11 2018-10-12 国网电子商务有限公司 一种基于模拟退火算法的用户推荐方法及装置
CA3040669A1 (en) 2018-10-17 2020-04-17 Alibaba Group Holding Limited Secret sharing with no trusted initializer
CN109410001B (zh) * 2018-10-23 2020-09-08 杭州数梦工场科技有限公司 一种商品推荐方法、系统、电子设备和存储介质
CN109949175B (zh) * 2019-03-26 2023-05-05 桂林电子科技大学 一种基于协同过滤和相似性度量的用户属性推断方法
CN109993450B (zh) * 2019-04-09 2023-04-07 湖南人文科技学院 电影评分方法、装置、设备及存储介质
CN110489656A (zh) * 2019-07-02 2019-11-22 华南师范大学 基于模式融合的物品推荐方法、系统及存储介质
CN110795570B (zh) * 2019-10-11 2022-06-17 上海上湖信息技术有限公司 一种用户时序行为特征提取方法及装置
CN112052402B (zh) * 2020-09-02 2024-03-01 北京百度网讯科技有限公司 信息推荐方法、装置、电子设备及存储介质
CN112131477A (zh) * 2020-09-27 2020-12-25 辽宁工程技术大学 一种基于用户画像的图书馆图书推荐系统及方法
CN113704608A (zh) * 2021-08-26 2021-11-26 武汉卓尔数字传媒科技有限公司 个性化项目推荐方法、装置、电子设备及存储介质
CN116738071B (zh) * 2023-08-15 2023-10-27 中移(苏州)软件技术有限公司 一种产品推荐方法、装置、电子设备、芯片及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064980A (en) * 1998-03-17 2000-05-16 Amazon.Com, Inc. System and methods for collaborative recommendations
CN102426686A (zh) * 2011-09-29 2012-04-25 南京大学 一种基于矩阵分解的互联网信息产品推荐方法
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN103745000A (zh) * 2014-01-24 2014-04-23 福州大学 一种中文微博客的热点话题检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064980A (en) * 1998-03-17 2000-05-16 Amazon.Com, Inc. System and methods for collaborative recommendations
CN102426686A (zh) * 2011-09-29 2012-04-25 南京大学 一种基于矩阵分解的互联网信息产品推荐方法
CN103678670A (zh) * 2013-12-25 2014-03-26 福州大学 一种微博热词与热点话题挖掘系统及方法
CN103745000A (zh) * 2014-01-24 2014-04-23 福州大学 一种中文微博客的热点话题检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
大规模互联网推荐系统优化算法;姜鹏等;《计算机工程与科学》;20131225;第35卷(第12期);全文 *
改进用户模型的协同过滤推荐算法;孙敏;《中国优秀硕士学位论文全文数据库》;20130315(第03期);全文 *

Also Published As

Publication number Publication date
CN104156436A (zh) 2014-11-19

Similar Documents

Publication Publication Date Title
CN104156436B (zh) 一种社交云媒体协同过滤推荐方法
CN103577549B (zh) 一种基于微博标签的人群画像系统和方法
CN106156004B (zh) 基于词向量的针对电影评论信息的情感分析系统及方法
CN103106285B (zh) 一种基于信息安全专业社交网络平台的推荐算法
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN104834632B (zh) 一种基于语义扩充的微博话题检测和热度评估方法
US11514063B2 (en) Method and apparatus of recommending information based on fused relationship network, and device and medium
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN105630884B (zh) 一种微博热点事件的地理位置发现方法
WO2013052563A3 (en) Social network recommended content and recommending members for personalized search results
Mirani et al. Sentiment analysis of isis related tweets using absolute location
CN105653518A (zh) 一种基于微博数据的特定群体发现及扩充方法
Yang et al. Finding interesting posts in twitter based on retweet graph analysis
JP6097126B2 (ja) レコメンド情報生成装置及びレコメンド情報生成方法
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN103150667B (zh) 一种基于本体结构的个性化推荐方法
CN105956158B (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN103488637A (zh) 一种基于动态社区挖掘进行专家检索的方法
CN107862620A (zh) 一种基于社交数据的相似用户挖掘方法
Zhao et al. Towards events detection from microblog messages
JP5734118B2 (ja) ソーシャルネットワークから小集団を抽出し、名前付け、並びに可視化する方法およびプログラム
Yang et al. Mining hidden concepts: Using short text clustering and wikipedia knowledge
Aghdam et al. Identifying places of interest for tourists using knowledge discovery techniques
Kaur et al. A tweet grouping methodology utilizing inter and intra cosine similarity
Liu et al. Biterm-LDA: A Recommendation Model for Latent Friends on Weibo.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant