CN108710703A - 一种基于聚类算法的影片评分预测方法及相关装置 - Google Patents

一种基于聚类算法的影片评分预测方法及相关装置 Download PDF

Info

Publication number
CN108710703A
CN108710703A CN201810522150.7A CN201810522150A CN108710703A CN 108710703 A CN108710703 A CN 108710703A CN 201810522150 A CN201810522150 A CN 201810522150A CN 108710703 A CN108710703 A CN 108710703A
Authority
CN
China
Prior art keywords
scoring
user
target
zero
film
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810522150.7A
Other languages
English (en)
Inventor
张莉
程江飞
李泽鹏
王邦军
张召
李凡长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810522150.7A priority Critical patent/CN108710703A/zh
Publication of CN108710703A publication Critical patent/CN108710703A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于聚类算法的影片评分预测方法,在输入评分训练样本集后,对评分进行预处理得到评分集合,对评分集合中,值为零的评分项首先进行一次预测得到不为零的新评分,将新评分替代每个类别集合中相应的值为零的评分项,得到新评分集合,新评分集合与预测前的类别评分集合相比,稀疏度得到有效降低,因此利用新评分集合确定的目标用户的近邻就会更优,从而就会很大程度上提高电影评分预测的准确性,以及提高电影推荐的准确性。本发明还提供了一种基于聚类算法的电影评分预测系统、装置及计算机可读存储介质,同样可以实现上述效果。

Description

一种基于聚类算法的影片评分预测方法及相关装置
技术领域
本发明涉及数据处理领域,更具体地说,涉及一种基于聚类算法的影片评分预测方法、系统、装置及计算机可读存储介质。
背景技术
随着互联网信息量的飞速增长,互联网用户要想在海量的信息中寻找到自己所需要的信息越来越困难。为了解决这个问题,帮助用户在成千上万的信息中准确找到符合自己需求和兴趣的信息,推荐系统的作用变得越来越重要。一个好的推荐系统会满足用户的需求,为用户寻找到准确且符合要求的信息。目前网络上的影片种类五花八门,质量参差不齐,用户对电影的评价也都不一样,要想在海量的影片库里找到自己所感兴趣的影片,节省时间变得愈发的重要。
推荐系统通过分析各个用户和影片之间的相似性为每个用户或影片找到若干个具有相似特征的近邻。通过寻找到的近邻为目标用户对目标影片做出评分预测。一般情况下,这些具有相似特征的近邻寻找的好坏将会对预测的效果起到较为关键的作用。
聚类算法通过将具有相似特征的点聚成一类,可以很好地运用到推荐系统的近邻选择中来。但是不同的聚类算法在对用户和商品的聚类上的准确度不同会导致选择的邻居不同,从而会影响评分的预测以及最终的推荐效果。
因此,如何提高对未知电影评分预测的准确性,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种基于聚类算法的影片评分预测方法、系统、装置及计算机可读存储介质,以提高对未知电影评分预测的准确性。
为实现上述目的,本发明实施例提供了如下技术方案:
一种基于聚类算法的影片评分预测方法,包括:
输入评分训练数据样本集;其中,所述样本集包括用户、与所述用户对应的电影及所述用户对所述电影的评分;
利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合;所述评分集合为对所述评分进行预处理得到的评分集合;
对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合;其中,所述值为零的评分项为没有评分的评分项;
在所述新评分集合对应的用户集合中确定目标用户的近邻用户;
利用所述目标用户的不为零的评分的第一平均值所述近邻用户的不为零的评分的第二平均值预测对应所述目标用户的值为零的评分项的评分。
其中,所述对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合,包括:
确定每个所述类别评分集合中值为零的目标评分项;
确定所述目标评分项对应的用户的不为零的评分的第三平均值;
确定与所述目标评分项对应的用户的同类用户的不为零的评分的第四平均值;
利用所述第三平均值与所述第四平均值确定所述目标评分项的不为零评分,作为新评分;
将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合。
其中,所述在所述新评分集合对应的用户集合中确定目标用户的近邻用户,包括:
在所有所述新评分集合对应的所有用户集合中确定与所述目标用户相似度最高的目标用户集合;
在所述目标用户集合中按照与所述目标用户的相似度从大到小确定目标个数的近邻用户。
其中,所述在所有所述新评分集合对应的所有用户集合中确定与所述目标用户相似度最高的目标用户集合,包括:
确定所述目标用户与每个所述用户集合中的用户共同评分的共同电影集合;
确定所述目标用户的不为零评分的第一平均值;
利用所述第一平均值,与所述目标用户对每个所述共同电影集合中的电影的不为零评分值确定目标用户与每个所述用户集合的相似度;
确定与所述目标用户相似度最高的目标用户集合。
其中,所述在所述目标用户集合中按照相似度从大到小确定目标个数的近邻用户,包括:
确定近邻用户的个数作为目标个数;
利用所述第一平均值与所述目标用户集合中的用户对所述共同电影集合中电影的评分确定目标个数的近邻用户。
其中,所利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合,包括:
确定所述用户之间余弦相似度;
确定预设聚类个数作为目标类别数;
利用所述余弦相似度、所述聚类个数即密度峰值聚类算法对所述评分进行聚类得到目标类别数的类别评分集合。
本发明还提供了一种基于聚类算法的影片评分预测系统,包括:
样本集输入模块,用于输入评分训练数据样本集;其中,所述样本集包括用户、与所述用户对应的电影及所述用户对所述电影的评分;
聚类模块,用于利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合;所述评分集合为对所述评分进行预处理得到的评分集合;
第一预测模块,用于对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合;
近邻用户确定模块,用于在所述新评分集合对应的用户集合中确定目标用户的近邻用户;
第二预测模块,用于利用所述目标用户的不为零的评分的第一平均值和所述近邻用户的不为零的评分的第二平均值预测对应所述目标用户的值为零的评分项的评分。
其中,所述聚类模块,包括:
第一确定单元,用于确定所述用户之间余弦相似度;
第二确定单元,用于确定预设聚类个数作为目标类别数;
聚类单元,用于利用所述余弦相似度、所述聚类个数即密度峰值聚类算法对所述评分进行聚类得到目标类别数的类别评分集合。
本发明还提供了一种基于聚类算法的影片评分预测装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如所述基于聚类算法的影片评分预测方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如所述基于聚类算法的影片评分预测方法的步骤。
通过以上方案可知,本发明提供的一种基于聚类算法的影片评分预测方法,包括:输入评分训练数据样本集;其中,所述样本集包括用户、与所述用户对应的电影及所述用户对所述电影的评分;利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合;所述评分集合为对所述评分进行预处理得到的评分集合;对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合;其中,所述值为零的评分项为没有评分的评分项;在所述新评分集合对应的用户集合中确定目标用户的近邻用户;利用所述目标用户的不为零的评分的第一平均值所述近邻用户的不为零的评分的第二平均值预测对应所述目标用户的值为零的评分项的评分。
由此可见,本发明提供的一种基于聚类算法的影片评分预测方法,在输入评分训练样本集后,对评分进行预处理得到评分集合,对评分集合中,值为零的评分项首先进行一次预测得到不为零的新评分,将新评分替代每个类别集合中相应的值为零的评分项,得到新评分集合,新评分集合与预测前的类别评分集合相比,稀疏度得到有效降低,因此利用新评分集合确定的目标用户的近邻就会更优,从而就会很大程度上提高电影评分预测的准确性,以及提高电影推荐的准确性。本发明还提供了一种基于聚类算法的电影评分预测系统、装置及计算机可读存储介质,同样可以实现上述效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种基于聚类算法的影片评分预测方法流程图;
图2为本发明实施例公开的一种具体的基于聚类算法的影片评分预测方法流程图;
图3为本发明实施例公开的一种基于聚类算法的影片评分预测系统结构示意图;
图4为本发明实施例公开的一种具体的聚类模块结构示意图;
图5为本发明实施例公开的一种基于聚类算法的影片评分预测装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于聚类算法的影片评分预测方法、系统、装置及计算机可读存储介质,以提高对未知电影评分预测的准确性。
参见图1,本发明实施例提供的一种基于聚类算法的影片评分方法,具体包括:
S101,输入评分训练数据样本集;其中,所述样本集包括用户、与所述用户对应的电影及所述用户对所述电影的评分。
在本方案中,首先输入用户对电影的评分训练数据样本集其中,(u,m,r)i表示第i个样本,l是总的样本个数,u∈U={u1,…,un},m∈M={m1,…,mk},r∈R={1,2,3,4,5},U是具有n个用户的集合,M是具有k部电影的集合,R表示用户对电影的评分集合。
S102,利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合;所述评分集合为对所述评分进行预处理得到的评分集合。
对上述评分训练数据样本集中的评分项进行预处理,得到一个关于用户的评分集合其中,第i个用户的评分向量ri∈Rk。第i个用户对第j部电影的评分用rij来表示,若rij=0,则表明用户没有评分。
利用目标聚类算法对评分集合进行聚类,聚类完成后,会对每一个用户赋予一个类别编号,令有类别编号的评分集合为其中,yi∈{1,…,N},N是聚类的个数,也就是类别数。
S103,对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合;其中,所述值为零的评分项为没有评分的评分项。
需要说明的是,由于每个用户评价的电影数目有限,所以用户评分向量的稀疏度较高,为了降低用户评分向量的稀疏度,因此要对评分值为0的评分项进行评分预测,得到一个不为零的预测值。
具体地,如果第i个用户对第j部电影的评分rij为0,则说明第i个用户对第j部电影没有评分。则需要对值为零的评分项进行预测。
首先确定每个类别评分集合中的值为零的评分项,即rij=0的评分项,作为目标评分项。然后确定该rij对应的用户i的不为零的评分项的平均评分值使作为第三平均值。确定用户i对应的类别yi中的其他用户i'的不为零的评分平均值作为第四平均值。利用第三平均值和第四平均值预测rij
具体地,利用公式计算得到每个rij=0的预测评分值,即新评分。其中,是第yi类的索引集合,表示用户i对电影的平均评分。完成用户对未评分影片的评分后,得到用户对影片的新评分集合第i个用户的评分向量 是表示第i个用户对第j部电影的评分。
S104,在所述新评分集合对应的用户集合中确定目标用户的近邻用户。
在为目标用户ui选择近邻时,首先确定与目标用户相似度最高的一类用户集合。
具体地,确定目标用户ui与每个类别p的用户集合中的用户共同评分的共同电影集合Mp;确定所述目标用户的不为零评分的第一平均值利用所述第一平均值与所述目标用户ui对每个所述共同电影集合Mp中的电影的不为零评分值,利用下式确定目标用户与每个所述共同电影集合的相似度:
然后从N个相似度中选出与目标用户ui最为相似的用户类q,即
q=argmaxp=1…Nsim(ui,Cp)
在用户类q对应的目标用户集合中,确定预设个数近邻。
首先确定近邻用户的个数,作为目标个数。
然后利用下式确定目标用户ui与q类用户的相似度:
其中Iu是用户ui评价过的影片集,w是系数,若用户对影片有评分,则w=λ,否则w=1-λ。再寻找与目标用户ui具有最高相似度的20个近邻,得到与用户ui的相似用户索引集合Su,其中|Su|=20。
S105,利用所述目标用户的不为零的评分的第一平均值和所述近邻用户的不为零的评分的第二平均值预测对应所述目标用户的值为零的评分项的评分。
具体地,利用目标用户的不为零的评分的第一平均值、近邻用户的不为零的评分的第二平均值、目标用户与近邻用户的相似度确定目标用户的值为零的评分项的评分,具体如下式:
确定目标用户的预测评分后,则可以根据该预测评分为用户推荐电影。
在本方案中,可以在Movielens-100k据集上进行测试,该数据集包含943名用户样本,1683个电影样本以及100000条评分。每个用户都对至少20部电影有过评分,评分分为5分评分,1分表示不喜欢该电影,5分表示最喜欢该电影,0分表示该用户未对该电影进行评分,为需要预测的值。参见表1,为本发明实施例与传统预测方法的性能对比表,其中,Item-based RS与User-based RS为传统的预测方法,MAE(mean absolute error)为平均绝对误差,RMSE(Root Mean Square Error)为均方根误差亦称标准误差。可见,本发明实施例提供的方法在预测用户未曾评价过的物品上的评分有着比较出色表现。
表1
方法 MAE RMSE
本发明 0.8459 1.0453
Item-based RS 0.8902 1.1164
User-based RS 0.9838 1.1744
由此可见,本发明实施例提供的一种基于聚类算法的影片评分预测方法,在输入评分训练样本集后,对评分进行预处理得到评分集合,对评分集合中值为零的评分项首先进行一次预测得到不为零的新评分,将新评分替代每个类别集合中相应的值为零的评分项,得到新评分集合,新评分集合与预测前的类别评分集合相比,稀疏度得到有效降低,因此利用新评分集合确定的目标用户的近邻就会更优,从而就会很大程度上提高电影评分预测的准确性,以及提高电影推荐的准确性。
下面对本发明实施例提供的一种具体的基于聚类算法的影片评分预测方法进行介绍。区别于上述实施例,本发明实施例对上述实施例中的目标聚类算法做了进一步的限定和说明,其他步骤内容与上述实施例大致相同,具体可以参考上述实施例,此处不再赘述。
参见图2,本发明实施例提供的一种具体地影片评分预测方法,具体包括:
S201,输入评分训练数据样本集;其中,所述样本集包括用户、与所述用户对应的电影及所述用户对所述电影的评分。
本步骤与上述实施例S101大致相同,具体可以参考上述实施例,此处不再赘述。
S202,确定所述用户之间余弦相似度。
S203,确定预设聚类个数作为目标类别数。
S204,利用所述余弦相似度、所述聚类个数即密度峰值聚类算法对所述评分进行聚类得到目标类别数的类别评分集合。
在本方案中,采用密度峰值聚类算法对评分集合进行聚类。
具体地,首先确定用户之间的余弦相似度,确定聚类的个数N,利用用户之间的余弦相似度根据密度峰值聚类算法对评分集合进行聚类,得到有类别标号的评分集合为其中yi∈{1,…,N}。
S205,对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合;其中,所述值为零的评分项为没有评分的评分项。
S206,在所述新评分集合对应的用户集合中确定目标用户的近邻用户。
S207,利用所述目标用户的不为零的评分的第一平均值所述近邻用户的不为零的评分的第二平均值预测对应所述目标用户的值为零的评分项的评分。
由此可见,本发明实施例提供的一种具体的电影评分预测方法,采用密度峰值聚类算法对评分集合进行聚类,确定聚类个数后,聚类中心可以自行确定,避免了认为的干预所带来的影响,同时该算法可以将非聚类中心点的聚类过程分离成一个单独过程,使得聚类中心的选择和非聚类点的归类分离开来,增大了聚类精度,从而提高了评分预测的准确度,以及电影推荐的准确度。
下面对本发明实施例提供的一种基于聚类算法的影片评分预测系统进行介绍,下文描述的一种基于聚类算法的影片评分预测系统与上文描述的一种基于聚类算法的影片评分预测方法可以相互参照。
参见图3,本发明实施例提供的一种基于聚类算法的影片评分预测系统,具体包括:
样本集输入模块301,用于输入评分训练数据样本集;其中,所述样本集包括用户、与所述用户对应的电影及所述用户对所述电影的评分。
在本方案中,样本集输入模块301首先输入用户对电影的评分训练数据样本集其中,(u,m,r)i表示第i个样本,l是总的样本个数,u∈U={u1,…,un},m∈M={m1,…,mk},r∈R={1,2,3,4,5},U是具有n个用户的集合,M是具有k部电影的集合,R表示用户对电影的评分集合。
聚类模块302,用于利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合;所述评分集合为对所述评分进行预处理得到的评分集合。
在聚类之前,首先获得预处理后的评分集合,评分集合是对上述评分训练数据样本集中的评分项进行预处理,得到一个关于用户的评分集合其中,第i个用户的评分向量ri∈Rk。第i个用户对第j部电影的评分用rij来表示,若rij=0,则表明用户没有评分。
聚类模块302利用目标聚类算法对评分集合进行聚类,聚类完成后,会对每一个用户赋予一个类别编号,令有类别编号的评分集合为其中,yi∈{1,…,N},N是聚类的个数,也就是类别数。
第一预测模块303,用于对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合。
需要说明的是,由于每个用户评价的电影数目有限,所以用户评分向量的稀疏度较高,为了降低用户评分向量的稀疏度,因此第一预测模块303要对评分值为0的评分项进行评分预测,得到一个不为零的预测值。
具体地,如果第i个用户对第j部电影的评分rij为0,则说明第i个用户对第j部电影没有评分。则需要对值为零的评分项进行预测。
第一预测模块303首先确定每个类别评分集合中的值为零的评分项,即rij=0的评分项,作为目标评分项。然后确定该rij对应的用户i的不为零的评分项的平均评分值使作为第三平均值。确定用户i对应的类别yi中的其他用户i'的不为零的评分平均值作为第四平均值。利用第三平均值和第四平均值预测rij
具体地,第一预测模块303利用公式计算得到每个rij=0的预测评分值,即新评分。其中,是第yi类的索引集合,表示用户i对电影的平均评分。完成用户对未评分影片的评分后,得到用户对影片的新评分集合第i个用户的评分向量 是表示第i个用户对第j部电影的评分。
近邻用户确定模块304,用于在所述新评分集合对应的用户集合中确定目标用户的近邻用户。
在为目标用户ui选择近邻时,近邻用户确定模块304首先确定与目标用户相似度最高的一类用户集合。
具体地,近邻用户确定模块304确定目标用户ui与每个类别p的用户集合中的用户共同评分的共同电影集合Mp;确定所述目标用户的不为零评分的第一平均值利用所述第一平均值与所述目标用户ui对每个所述共同电影集合Mp中的电影的不为零评分值,利用下式确定目标用户与每个所述共同电影集合的相似度:
然后从N个相似度中选出与目标用户ui最为相似的用户类q,即
q=argmaxp=1…Nsim(ui,Cp)
在用户类q对应的目标用户集合中,确定预设个数近邻。
然后近邻用户确定模块304确定近邻用户的个数,作为目标个数,利用下式确定目标用户ui与q类用户的相似度:
其中Iu是用户ui评价过的影片集,w是系数,若用户对影片有评分,则w=λ,否则w=1-λ。再寻找与目标用户ui具有最高相似度的20个近邻,得到与用户ui的相似用户索引集合Su,其中|Su|=20。
第二预测模块305,用于利用所述目标用户的不为零的评分的第一平均值和所述近邻用户的不为零的评分的第二平均值预测对应所述目标用户的值为零的评分项的评分。
具体地,第二预测模块305利用目标用户的不为零的评分的第一平均值、近邻用户的不为零的评分的第二平均值、目标用户与近邻用户的相似度确定目标用户的值为零的评分项的评分,具体如下式:
第二预测模块305确定目标用户的预测评分后,则可以根据该预测评分为用户推荐电影。
由此可见,本发明实施例提供的一种基于聚类算法的影片评分预测系统,在样本集输入模块301输入评分训练样本集后,对评分进行预处理得到评分集合,第一预测模块303对评分集合中值为零的评分项首先进行一次预测,降低评分向量的稀疏度,从而第二预测模块305再对目标用户未评分过的电影进行评分预测时,就会很大程度上提高预测的准确性,从而提高电影推荐的准确性。
本发明实施例对上述实施例中聚类模块302做了具体的限定和说明,其他内容与上述实施例大致相同,此处不再赘述。
参见图4,本发明实施例提供的一种具体的聚类模块,包括:
第一确定单元401,用于确定所述用户之间余弦相似度。
第二确定单元402,用于确定预设聚类个数作为目标类别数。
聚类单元403,用于利用所述余弦相似度、所述聚类个数即密度峰值聚类算法对所述评分进行聚类得到目标类别数的类别评分集合。
在本方案中,采用密度峰值聚类算法对评分集合进行聚类。
具体地,首先第一确定单元401确定用户之间的余弦相似度,第二确定单元402确定聚类的个数N,聚类单元403利用用户之间的余弦相似度根据密度峰值聚类算法对评分集合进行聚类,得到有类别标号的评分集合为其中yi∈{1,…,N}。
由此可见,本发明实施例提供的一种具体的电影评分预测系统,聚类模块302采用密度峰值聚类算法对评分集合进行聚类,确定聚类个数后,聚类中心可以自行确定,避免了认为的干预所带来的影响,同时该算法可以将非聚类中心点的聚类过程分离成一个单独过程,使得聚类中心的选择和非聚类点的归类分离开来,增大了聚类精度,从而提高了评分预测的准确度,以及电影推荐的准确度。
下面对本发明实施例提供的一种基于聚类算法的影片评分预测装置进行介绍,下文描述的一种基于聚类算法的影片评分预测装置与上述实施例可以相互参照。
参见图5,本发明实施例提供的一种基于聚类算法的影片评分预测装置,包括存储器501和处理器502,其中所述处理器502被执行所述存储器501中保存的计算机程序时实现以下步骤:
输入评分训练数据样本集;其中,所述样本集包括用户、与所述用户对应的电影及所述用户对所述电影的评分;利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合;所述评分集合为对所述评分进行预处理得到的评分集合;对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合;其中,所述值为零的评分项为没有评分的评分项;在所述新评分集合对应的用户集合中确定目标用户的近邻用户;利用所述目标用户的不为零的评分的第一平均值与所述近邻用户的不为零的评分的第二平均值预测对应所述目标用户的值为零的评分项的评分。
本实施例中,所述处理器502执行所述存储器501中保存的计算机子程序时,可以具体实现以下步骤:
确定每个所述类别评分集合中值为零的目标评分项;确定所述目标评分项对应的用户的不为零的评分的第三平均值;确定与所述目标评分项对应的用户的同类用户的不为零的评分的第四平均值;利用所述第三平均值与所述第四平均值确定所述目标评分项的不为零评分,作为新评分;将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合。
本实施例中,所述处理器502执行所述存储器501中保存的计算机子程序时,可以具体实现以下步骤:
在所有所述新评分集合对应的所有用户集合中确定与所述目标用户相似度最高的目标用户集合;在所述目标用户集合中按照与所述目标用户的相似度从大到小确定目标个数的近邻用户。
本实施例中,所述处理器502执行所述存储器501中保存的计算机子程序时,可以具体实现以下步骤:
确定所述目标用户与每个所述用户集合中的用户共同评分的共同电影集合;确定所述目标用户的不为零评分的第一平均值;利用所述第一平均值,与所述目标用户对每个所述共同电影集合中的电影的不为零评分值确定目标用户与每个所述共同电影集合的相似度;确定与所述目标用户相似度最高的目标用户集合。
本实施例中,所述处理器502执行所述存储器501中保存的计算机子程序时,可以具体实现以下步骤:
确定近邻用户的个数作为目标个数;利用所述第一平均值与所述目标用户集合中的用户对所述共同电影集合中电影的评分确定目标个数的近邻用户。
本实施例中,所述处理器502执行所述存储器501中保存的计算机子程序时,可以具体实现以下步骤:
确定所述用户之间余弦相似度;确定预设聚类个数作为目标类别数;利用所述余弦相似度、所述聚类个数即密度峰值聚类算法对所述评分进行聚类得到目标类别数的类别评分集合。
本实施例中,处理器502中还可以集成其他功能的处理单元,用于对外界输入的不同类型的数据进行相应的处理。例如根据影片评分结果进行影片推荐的处理单元等。
本实施例中,影片评分预测装置还可以包括显示单元503与输入接口504,其中,显示单元503用于显示处理器502发送的数据;输入接口504,用于获取外界导入的计算机程序,也可以用于获取外界输入的各种参数和指令,并将获取到的数据保存至存储器501中。
下面对本发明实施例提供的一种计算机可读存储介质进行介绍,下文描述的一种计算机可读存储介质与上述实施例可以相互参照。
本发明实施例提供的一种计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述基于聚类算法的影片评分预测方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于聚类算法的影片评分预测方法,其特征在于,包括:
输入评分训练数据样本集;其中,所述样本集包括用户、与所述用户对应的电影及所述用户对所述电影的评分;
利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合;所述评分集合为对所述评分进行预处理得到的评分集合;
对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合;其中,所述值为零的评分项为没有评分的评分项;
在所述新评分集合对应的用户集合中确定目标用户的近邻用户;
利用所述目标用户的不为零的评分的第一平均值与所述近邻用户的不为零的评分的第二平均值预测对应所述目标用户的值为零的评分项的评分。
2.根据权利要求1所述的方法,其特征在于,所述对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合,包括:
确定每个所述类别评分集合中值为零的目标评分项;
确定所述目标评分项对应的用户的不为零的评分的第三平均值;
确定与所述目标评分项对应的用户的同类用户的不为零的评分的第四平均值;
利用所述第三平均值与所述第四平均值确定所述目标评分项的不为零评分,作为新评分;
将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合。
3.根据权利要求1所述的方法,其特征在于,所述在所述新评分集合对应的用户集合中确定目标用户的近邻用户,包括:
在所有所述新评分集合对应的所有用户集合中确定与所述目标用户相似度最高的目标用户集合;
在所述目标用户集合中按照与所述目标用户的相似度从大到小确定目标个数的近邻用户。
4.根据权利要求3所述的方法,其特征在于,所述在所有所述新评分集合对应的所有用户集合中确定与所述目标用户相似度最高的目标用户集合,包括:
确定所述目标用户与每个所述用户集合中的用户共同评分的共同电影集合;
确定所述目标用户的不为零评分的第一平均值;
利用所述第一平均值,与所述目标用户对每个所述共同电影集合中的电影的不为零评分值确定目标用户与每个用户集合的相似度;
确定与所述目标用户相似度最高的目标用户集合。
5.根据权利要求3所述的方法,其特征在于,所述在所述目标用户集合中按照相似度从大到小确定目标个数的近邻用户,包括:
确定近邻用户的个数作为目标个数;
利用所述第一平均值与所述目标用户集合中的用户对所述共同电影集合中电影的评分确定目标个数的近邻用户。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合,包括:
确定所述用户之间余弦相似度;
确定预设聚类个数作为目标类别数;
利用所述余弦相似度、所述聚类个数即密度峰值聚类算法对所述评分进行聚类得到目标类别数的类别评分集合。
7.一种基于聚类算法的影片评分预测系统,其特征在于,包括:
样本集输入模块,用于输入评分训练数据样本集;其中,所述样本集包括用户、与所述用户对应的电影及所述用户对所述电影的评分;
聚类模块,用于利用目标聚类算法对评分集合进行聚类得到目标类别数的类别评分集合;所述评分集合为对所述评分进行预处理得到的评分集合;
第一预测模块,用于对每个所述类别评分集合中值为零的评分项进行评分预测,得到不为零的新评分,并将所述新评分替代每个所述类别评分集合中相应的值为零的评分项,得到新评分集合;
近邻用户确定模块,用于在所述新评分集合对应的用户集合中确定目标用户的近邻用户;
第二预测模块,用于利用所述目标用户的不为零的评分的第一平均值和所述近邻用户的不为零的评分的第二平均值预测对应所述目标用户的值为零的评分项的评分。
8.根据权利要求7所述的方法,其特征在于,所述聚类模块,包括:
第一确定单元,用于确定所述用户之间余弦相似度;
第二确定单元,用于确定预设聚类个数作为目标类别数;
聚类单元,用于利用所述余弦相似度、所述聚类个数即密度峰值聚类算法对所述评分进行聚类得到目标类别数的类别评分集合。
9.一种基于聚类算法的影片评分预测装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述基于聚类算法的影片评分预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于聚类算法的影片评分预测方法的步骤。
CN201810522150.7A 2018-05-28 2018-05-28 一种基于聚类算法的影片评分预测方法及相关装置 Pending CN108710703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810522150.7A CN108710703A (zh) 2018-05-28 2018-05-28 一种基于聚类算法的影片评分预测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810522150.7A CN108710703A (zh) 2018-05-28 2018-05-28 一种基于聚类算法的影片评分预测方法及相关装置

Publications (1)

Publication Number Publication Date
CN108710703A true CN108710703A (zh) 2018-10-26

Family

ID=63870803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810522150.7A Pending CN108710703A (zh) 2018-05-28 2018-05-28 一种基于聚类算法的影片评分预测方法及相关装置

Country Status (1)

Country Link
CN (1) CN108710703A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104552A (zh) * 2019-12-24 2020-05-05 浙江大学 一种基于电影结构化信息和简介预测电影评分类别的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373597A (zh) * 2015-10-27 2016-03-02 华侨大学 基于k-medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法
US20160294961A1 (en) * 2015-03-31 2016-10-06 International Business Machines Corporation Generation of content recommendations
CN106407379A (zh) * 2016-09-13 2017-02-15 天津大学 一种基于Hadoop平台的电影推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160294961A1 (en) * 2015-03-31 2016-10-06 International Business Machines Corporation Generation of content recommendations
CN105373597A (zh) * 2015-10-27 2016-03-02 华侨大学 基于k-medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法
CN106407379A (zh) * 2016-09-13 2017-02-15 天津大学 一种基于Hadoop平台的电影推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雷震: "基于聚类的个性化推荐算法研究", 《中国优秀硕士学位论文全文数据库基础科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104552A (zh) * 2019-12-24 2020-05-05 浙江大学 一种基于电影结构化信息和简介预测电影评分类别的方法
CN111104552B (zh) * 2019-12-24 2023-06-06 浙江大学 一种基于电影结构化信息和简介预测电影评分类别的方法

Similar Documents

Publication Publication Date Title
Hui et al. PACRR: A position-aware neural IR model for relevance matching
CN104123332B (zh) 搜索结果的显示方法及装置
CN108073568B (zh) 关键词提取方法和装置
CN105701216B (zh) 一种信息推送方法及装置
CN103544267B (zh) 一种基于搜索建议词进行搜索的方法以及装置
WO2018157625A1 (zh) 基于强化学习的排序学习方法及服务器
US20130110829A1 (en) Method and Apparatus of Ranking Search Results, and Search Method and Apparatus
CN108614867B (zh) 基于学术论文的技术前沿性指数计算方法及系统
CN105373597A (zh) 基于k-medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN103064903B (zh) 图片检索方法和装置
CN103559504A (zh) 图像目标类别识别方法及装置
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN106372249A (zh) 一种点击率预估方法、装置及电子设备
WO2008106668A1 (en) User query mining for advertising matching
CN107122980A (zh) 识别商品所属类目的方法和装置
CN109408729A (zh) 推荐物料确定方法、装置、存储介质和计算机设备
Yin et al. Exploring social activeness and dynamic interest in community-based recommender system
CN108846097A (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
CN108829804A (zh) 基于距离划分树的高维数据相似性连接查询方法及装置
CN109857873A (zh) 推荐实体的方法和装置、电子设备、计算机可读介质
CN107705231A (zh) 一种计算机辅助的阅卷方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181026

RJ01 Rejection of invention patent application after publication