CN109829109A - 基于共现分析的推荐方法 - Google Patents

基于共现分析的推荐方法 Download PDF

Info

Publication number
CN109829109A
CN109829109A CN201910082503.0A CN201910082503A CN109829109A CN 109829109 A CN109829109 A CN 109829109A CN 201910082503 A CN201910082503 A CN 201910082503A CN 109829109 A CN109829109 A CN 109829109A
Authority
CN
China
Prior art keywords
project
user
occurrence
matrix
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910082503.0A
Other languages
English (en)
Other versions
CN109829109B (zh
Inventor
牛奉高
徐倩丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201910082503.0A priority Critical patent/CN109829109B/zh
Publication of CN109829109A publication Critical patent/CN109829109A/zh
Application granted granted Critical
Publication of CN109829109B publication Critical patent/CN109829109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于推荐系统技术领域,具体涉及基于共现分析的推荐方法,本发明涉及两种改进的协同过滤推荐方法(WCO_IBCF和MCO_IBCF)的提出,“协同过滤推荐”是一种跨领域的应用,推荐系统作为一种有效的信息过滤手段,特别着重于利用这些技术提高信息的使用效率。共现潜在语义分析理论与方法应用于推荐系统领域,将提高推荐结果的准确率。

Description

基于共现分析的推荐方法
技术领域
本发明属于推荐系统技术领域,具体涉及基于共现分析的两种推荐方法,本发明涉及两种改进的协同过滤推荐方法(WCO_IBCF和MCO_IBCF)的提出,“协同过滤推荐”是一种跨领域的应用,推荐系统作为一种有效的信息过滤手段,特别着重于利用这些技术提高信息的使用效率。共现潜在语义分析理论与方法应用于推荐系统领域,将提高推荐结果的准确率。
背景技术
协同过滤推荐技术是推荐系统中被研究和应用最广泛的技术。通过分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测,从而根据这一喜好程度来对目标用户进行推荐。相似度的计算是协同过滤推荐的核心,传统的协同过滤推荐在计算用户与用户、项目与项目之间的相似度时,由于用户评分矩阵普遍存在的稀疏性问题,导致计算出来的相似度准确性不高,从而降低推荐结果的精确度。目前,通过预测插补评分矩阵或者降维等方法来提高推荐质量存在局限性和瓶颈,原因在于对评分矩阵的构建上没有充分提取并合理表示出评分矩阵包含的信息。对于如何充分提取原始数据所表达的信息,可以进一步挖掘和利用。
发明内容
本发明针对推荐结果的精确不高的技术问题,提供一种基于共现分析的推荐方法。
为解决上述技术问题,本发明采用的技术方案为:
基于共现分析的推荐方法,包括以下步骤:
步骤1.数据准备:采集数据(例如:电影评分数据),通过数据的融合重铸生成用户-项目评分矩阵R=(rui)n×m,即评分矩阵,将采集的数据中没有出现的评分项记为缺失项
其中n为用户总数,m为项目总数,rui为第u个用户对第i部电影的评分;
步骤2.将评分矩阵R转化为布尔矩阵A=(aui)n×m,将R中有评分的项记为1,缺失项记为0,
其中
其中:用户-项目评分矩阵中的每一行表示的是每位用户对所有项目评过分的情况,每一列表示的是每个项目在所有用户中的出现情况;
步骤3.根据CLSVSM计算共现矩阵,获得项目的出现频次以及项目之间两两共现频次;项目之间的共现矩阵为:C=AT·A=(cij)m×m,当i=j时,cii为第i个项目出现的总频次;当i≠j时,cij表示项目i与项目j之间的共现频次;
步骤4.计算项目之间的共现相对强度矩阵:
其中,当i≠j时,bij为第i个项目与第j个项目的共现强度;显然当i=j时,bij=1,此时为最大共现强度;
步骤5.评分矩阵的补全:
基于项目与项目之间,用户与用户之间的共现分析,运用加权平均方法和最大值法两种模型分别进行评分信息补充,生成WR和MR矩阵;
步骤6.根据补全得到的新的评分矩阵,考虑不同的相似度计算方法,进行更加准确的邻居选择:
(1)余弦相似性:如果设共有n位用户对m个项目进行评分,那么每个项目得到的评分可以看做是n维空间上的向量,项目之间的相似性则可以通过向量间夹角的余弦来度量;夹角越小,两个向量的余弦会越大,项目之间的相似性就越大;设项目i和项目j得到的评分在n维空间上分别为则项目i和项目j的相似度Sim(i,j)为
(2)修正的余弦相似性:余弦相似度未考虑到用户评分尺度问题,修正的余弦相似性度量方法通过减去用户对项目的平均评分来改善上述缺陷;设U为对项目i和项目j共同评分过的用户合集,则项目i和项目j的相似性计算公式如下:
Rui表示用户u对项目i的评分,Ruj表示用户u对项目j的评分,表示用户u对项目的平均评分;
步骤7.用户对项目的预测评分计算:在预测用户u对项目i的评分时,需要加入用户u对和项目i相似的其他项目的评分:
其中,S(i,K)表示和项目i最相似的项目合集,Iu(1)表示用户u评过分的项目合集,sij表示项目间的相似度,是项目i的平均分,是项目j的平均分;
步骤8.根据用户对项目的预测评分生成Top-N推荐方法进行推荐。
所述步骤5中运用加权平均方法和最大值法两种模型分别进行评分信息补充,生成WR和MR矩阵,具体为:
加权平均法:以项目之间的共现强度作为标准,先找到用户u评分过的项目集Iu(1)以及u对它们的评分集合其中,Iu(1)={t|aui=1}表示用户u评分过的项目集合,然后将项目集Iu(1)中的项目与该用户没有评过分的项目i之间的共现强度集合作为权重,计算的加权平均,并把结果作为填补信息,添加到评分矩阵中;记新的评分矩阵为WR,建立的模型如下:
最大值法:以最大共现强度作为标准,先找到用户u评分过的项目集中与该用户没有评分过的项目i具有最大共现强度的项目k(Iu(1)中与项目i具有最大共现强度的项目),并将作为项目i与用户u接近程度的权重,然后将bik与ruk的乘积作为填补信息,添加到评分矩阵中;记新的评分矩阵为MR,建立的模型如下:
本发明提出了共现潜在语义向量空间模型,基于该模型,将共现分析的方法应用于推荐中,可以挖掘出用户评分信息的潜在特征,通过利用潜在共现信息对用户原始评分矩阵的补充来降低评分矩阵的稀疏度,从而弱化由于评分稀缺对推荐准确度的影响,为推荐系统的广泛应用提供一种有效可行的解决方法。充分挖掘评分矩阵中项目之间的潜在共现关系,建立项目之间的共现关系的强度,能更多的表达出原始数据的信息,实现评分矩阵的平滑,有效降低稀疏度,提高推荐准确度。在传统的IBCF(Item-based CollaborativeFiltering)基础上,将共现分析的理论和方法用于推荐方法中,进而提出WCO_IBCF(theweighted co-occurrence IBCF)和MCO_IBCF(the maximum co-occurrence IBCF)两种协同过滤推荐方法。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例基于共现分析的推荐方法,以电影评分为例进行基于共现分析的推荐方法的详细介绍,包括以下步骤:
步骤1.数据准备:采集数据,通过数据的融合重铸生成用户-项目评分矩阵R=(rui)n×m,即评分矩阵,将采集的数据中没有出现的评分项记为缺失项
其中n为用户总数,m为项目总数,rui为第u个用户对第i部电影的评分
示例中,原始数据:
设原始评分矩阵为R,数据使用随机生成的训练集,即有:
步骤2.将评分矩阵R转化为布尔矩阵A=(aui)n×m,将R中有评分的项记为1,缺失项记为0,
其中
其中:用户-项目评分矩阵中的每一行表示的是每位用户对所有项目评过分的情况,每一列表示的是每个项目在所有用户中的出现情况;
示例中,根据R矩阵,生成布尔矩阵A:
操作代码:
R<-as.matrix(R)#转化为矩阵格式
ut1<-R#用户-电影
ut1[!is.na(ut1)]<-1#将非缺失值记为1
ut1[is.na(ut1)]<-0#ut1是0格式的(0-1)
A<-ut1#原始评分矩阵的布尔矩阵0-1
步骤3.根据CLSVSM计算共现矩阵,获得项目的出现频次以及项目之间两两共现频次;项目之间的共现矩阵为:C=AT·A=(cij)m×m,当i=j时,cii为第i个项目出现的总频次;当i≠j时,cij表示项目i与项目j之间的共现频次;
计算得电影共现矩阵C:
操作代码:
ut0<-A
Tut<-t(ut0)#矩阵转置
dim(Tut)
#############电影共现矩阵-C矩阵##
ut00<-as.matrix(ut0)
Tut0<-as.matrix(Tut)
C<-Tut0%*%ut00#矩阵相乘
步骤4.计算项目之间的共现相对强度矩阵:
其中,当i≠j时,bij为第i个项目与第j个项目的共现强度;显然当i=j时,bij=1,此时为最大共现强度;
电影共现强度矩阵B:
操作代码:
步骤5.评分矩阵的补全:
基于项目与项目之间,用户与用户之间的共现分析,运用加权平均方法和最大值法两种模型分别进行评分信息补充,生成WR和MR矩阵,具体为:
加权平均法:以项目之间的共现强度作为标准,先找到用户u评分过的项目集Iu(1)以及u对它们的评分集合其中,Iu(1)={t|aui=1}表示用户u评分过的项目集合,然后将项目集Iu(1)中的项目与该用户没有评过分的项目i之间的共现强度集合作为权重,计算的加权平均,并把结果作为填补信息,添加到评分矩阵中;记新的评分矩阵为WR,建立的模型如下:
WR:利用加权平均法进行矩阵补全
操作代码:
最大值法:以最大共现强度作为标准,先找到用户u评分过的项目集中与该用户没有评分过的项目i具有最大共现强度的项目k,并将作为项目i与用户u接近程度的权重,然后将bik与ruk的乘积作为填补信息,添加到评分矩阵中;记新的评分矩阵为MR,建立的模型如下:
MR:利用最大值法进行矩阵补全
操作代码:
步骤6.根据补全得到的新的评分矩阵,考虑不同的相似度计算方法,进行更加准确的邻居选择:
(1)余弦相似性:如果设共有n位用户对m个项目进行评分,那么每个项目得到的评分可以看做是n维空间上的向量,项目之间的相似性则可以通过向量间夹角的余弦来度量;夹角越小,两个向量的余弦会越大,项目之间的相似性就越大;设项目i和项目j得到的评分在n维空间上分别为则项目i和项目j的相似度Sim(i,j)为
(2)修正的余弦相似性:余弦相似度未考虑到用户评分尺度问题,修正的余弦相似性度量方法通过减去用户对项目的平均评分来改善上述缺陷;设U为对项目i和项目j共同评分过的用户合集,则项目i和项目j的相似性计算公式如下:
Rui表示用户u对项目i的评分,Ruj表示用户u对项目j的评分,表示用户u对项目的平均评分;
步骤7.用户对项目的预测评分计算:在预测用户u对项目i的评分时,需要加入用户u对和项目i相似的其他项目的评分:
其中,S(i,K)表示和项目i最相似的项目合集,Iu(1)表示用户u评过分的项目合集,sij表示项目间的相似度,是项目i的平均分,是项目j的平均分;
测试集为:
操作代码:
testdata<-Rdata[c(3,5,7),];testdata
real_testdata<-as(testdata,"realRatingMatrix")
colnames(real_testdata)<-paste("M",1:4,sep="")
进行推荐预测:(WCO_IBCF)
操作代码:
WR[WR==0]<-NA#把WR矩阵中的0元素变为NA
WR_2<-WR
WR_real_2<-as(WR_2,"realRatingMatrix")
colnames(WR_real_2)<-paste("M",1:4,sep="")
re.IBCF1<-Recommender(WR_real_2,method='IBCF')#IBCF--基于项目相似度的推荐
predict1<-predict(re.IBCF1,real_testdata,type='ratings')#生成推荐
result1<-as(predict1,"matrix");result1
进行推荐预测:(MCO_IBCF)
操作代码:
MR[MR==0]<-NA#把WR矩阵中的0元素变为NA
MR_2<-MR
MR_real_2<-as(MR_2,"realRatingMatrix")
colnames(MR_real_2)<-paste("M",1:4,sep="")
re.IBCF2<-Recommender(MR_real_2,method='IBCF')#IBCF--基于项目相似度的推荐
predict2<-predict(re.IBCF2,real_testdata,type='ratings')#生成推荐
result2<-as(predict2,"matrix");result2
步骤8.根据用户对项目的预测评分生成Top-N推荐方法进行推荐。
本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.基于共现分析的推荐方法,包括以下步骤:
步骤1.数据准备:采集数据,通过数据的融合重铸生成用户-项目评分矩阵R=(rui)n×m,即评分矩阵,将采集的数据中没有出现的评分项记为缺失项
其中n为用户总数,m为项目总数,rui为第u个用户对第i部电影的评分;
步骤2.将评分矩阵R转化为布尔矩阵A=(aui)n×m,将R中有评分的项记为1,缺失项记为0,
其中
其中:用户-项目评分矩阵中的每一行表示的是每位用户对所有项目评过分的情况,每一列表示的是每个项目在所有用户中的出现情况;
步骤3.根据CLSVSM计算共现矩阵,获得项目的出现频次以及项目之间两两共现频次;项目之间的共现矩阵为:C=AT·A=(cij)m×m,当i=j时,cii为第i个项目出现的总频次;当i≠j时,cij表示项目i与项目j之间的共现频次;
步骤4.计算项目之间的共现相对强度矩阵:
其中,当i≠j时,bij为第i个项目与第j个项目的共现强度;显然当i=j时,bij=1,此时为最大共现强度;
步骤5.评分矩阵的补全:
基于项目与项目之间,用户与用户之间的共现分析,运用加权平均方法和最大值法两种模型分别进行评分信息补充,生成WR和MR矩阵;
步骤6.根据补全得到的新的评分矩阵,考虑不同的相似度计算方法,进行更加准确的邻居选择:
(1)余弦相似性:如果设共有n位用户对m个项目进行评分,那么每个项目得到的评分可以看做是n维空间上的向量,项目之间的相似性则可以通过向量间夹角的余弦来度量;夹角越小,两个向量的余弦会越大,项目之间的相似性就越大;设项目i和项目j得到的评分在n维空间上分别为则项目i和项目j的相似度Sim(i,j)为
(2)修正的余弦相似性:余弦相似度未考虑到用户评分尺度问题,修正的余弦相似性度量方法通过减去用户对项目的平均评分来改善上述缺陷;设U为对项目i和项目j共同评分过的用户合集,则项目i和项目j的相似性计算公式如下:
Rui表示用户u对项目i的评分,Ruj表示用户u对项目j的评分,表示用户u对项目的平均评分;
步骤7.用户对项目的预测评分计算:在预测用户u对项目i的评分时,需要加入用户u对和项目i相似的其他项目的评分:
其中,S(i,K)表示和项目i最相似的项目合集,Iu(1)表示用户u评过分的项目合集,sij表示项目间的相似度,是项目i的平均分,是项目j的平均分;
步骤8.根据用户对项目的预测评分生成Top-N推荐方法进行推荐。
2.根据权利要求1所述的基于共现分析的推荐方法,其特征在于:所述步骤5中运用加权平均方法和最大值法两种模型分别进行评分信息补充,生成WR和MR矩阵,具体为:
加权平均法:以项目之间的共现强度作为标准,先找到用户u评分过的项目集Iu(1)以及u对它们的评分集合其中,Iu(1)={t|aui=1}表示用户u评分过的项目集合,然后将项目集Iu(1)中的项目与该用户没有评过分的项目i之间的共现强度集合作为权重,计算的加权平均,并把结果作为填补信息,添加到评分矩阵中;记新的评分矩阵为WR,建立的模型如下:
最大值法:以最大共现强度作为标准,先找到用户u评分过的项目集中与该用户没有评分过的项目i具有最大共现强度的项目k,并将作为项目i与用户u接近程度的权重,然后将bik与ruk的乘积作为填补信息,添加到评分矩阵中;记新的评分矩阵为MR,建立的模型如下:
CN201910082503.0A 2019-01-28 2019-01-28 基于共现分析的推荐方法 Active CN109829109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910082503.0A CN109829109B (zh) 2019-01-28 2019-01-28 基于共现分析的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910082503.0A CN109829109B (zh) 2019-01-28 2019-01-28 基于共现分析的推荐方法

Publications (2)

Publication Number Publication Date
CN109829109A true CN109829109A (zh) 2019-05-31
CN109829109B CN109829109B (zh) 2021-02-02

Family

ID=66862648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910082503.0A Active CN109829109B (zh) 2019-01-28 2019-01-28 基于共现分析的推荐方法

Country Status (1)

Country Link
CN (1) CN109829109B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177545A (zh) * 2019-12-24 2020-05-19 百度国际科技(深圳)有限公司 广告投放方法、平台、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104219575A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 相关视频推荐方法及系统
CN105843860A (zh) * 2016-03-17 2016-08-10 山东大学 一种基于并行item-based协同过滤算法的微博关注推荐方法
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法
CN106844301A (zh) * 2017-02-22 2017-06-13 山西大学 一种基于二元和三元共词潜在语义信息的文献表示方法
US10095771B1 (en) * 2012-03-19 2018-10-09 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095771B1 (en) * 2012-03-19 2018-10-09 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis
CN104219575A (zh) * 2013-05-29 2014-12-17 酷盛(天津)科技有限公司 相关视频推荐方法及系统
CN105843860A (zh) * 2016-03-17 2016-08-10 山东大学 一种基于并行item-based协同过滤算法的微博关注推荐方法
CN106708969A (zh) * 2016-12-02 2017-05-24 山西大学 文献资源主题聚类共现潜在语义向量空间模型语义核方法
CN106844301A (zh) * 2017-02-22 2017-06-13 山西大学 一种基于二元和三元共词潜在语义信息的文献表示方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何明等: "基于用户共现矩阵乘子的分布式协同过滤推荐", 《计算机科学》 *
牛奉高等: "三元共现潜在语义向量空间模型", 《情报科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177545A (zh) * 2019-12-24 2020-05-19 百度国际科技(深圳)有限公司 广告投放方法、平台、电子设备及存储介质
CN111177545B (zh) * 2019-12-24 2023-06-09 百度国际科技(深圳)有限公司 广告投放方法、平台、电子设备及存储介质

Also Published As

Publication number Publication date
CN109829109B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
Cheng et al. Vista: Vision and scene text aggregation for cross-modal retrieval
CN109101493B (zh) 一种基于对话机器人的智能购房助手
Wan et al. The direct and indirect effects of infrastructure on firm productivity: Evidence from Chinese manufacturing
US7689527B2 (en) Attribute extraction using limited training data
CN106650725A (zh) 基于全卷积神经网络的候选文本框生成和文本检测方法
CN108573041A (zh) 基于加权信任关系的概率矩阵分解推荐方法
CN105740430A (zh) 一种融合社会化信息的个性化推荐方法
CN103559199B (zh) 网页信息抽取方法和装置
CN103810299A (zh) 基于多特征融合的图像检索方法
CN107330727A (zh) 一种基于隐语义模型的个性化推荐方法
CN109359172A (zh) 一种基于图划分的实体对齐优化方法
CN107657284A (zh) 一种基于语义相似性扩展的商品名称分类方法及系统
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
Himmelweit et al. The anomalies of capital
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN109885681A (zh) 一种基于计算机科技文献数据库的专利价值度计算方法
CN109033132A (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN110110230A (zh) 一种基于用户评分与评论的推荐方法
CN109389321A (zh) 一种价格评估方法及装置
CN111159396A (zh) 面向数据共享交换的文本数据分类分级模型的建立方法
Wu The productive efficiency of Chinese iron and steel firms A stochastic frontier analysis
Kato et al. Mse loss with outlying label for imbalanced classification
CN109829109A (zh) 基于共现分析的推荐方法
CN111079582A (zh) 一种图像识别的英语作文跑题判断方法
CN107798137B (zh) 一种基于可加模型的多源异构数据融合架构系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant