CN106779946A - 一种电影推荐方法及装置 - Google Patents
一种电影推荐方法及装置 Download PDFInfo
- Publication number
- CN106779946A CN106779946A CN201611169017.5A CN201611169017A CN106779946A CN 106779946 A CN106779946 A CN 106779946A CN 201611169017 A CN201611169017 A CN 201611169017A CN 106779946 A CN106779946 A CN 106779946A
- Authority
- CN
- China
- Prior art keywords
- targeted customer
- film
- page
- class cluster
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Abstract
本发明适用于推荐算法应用技术领域,提供一种电影推荐方法及装置,方法包括:识别并判断目标用户是否为注册用户;若是注册用户,则判断目标用户对电影的评价数目是否大于或等于预设评价阈值;若评价数目大于或等于预设评价阈值,则基于电影特征的协同过滤推荐模型给目标用户推荐电影;该推荐模型若不是注册用户或者评价数据小于预设评价阈值,则基于WEB使用挖掘的推荐模型给目标用户推荐电影;该电影推荐方法可针对不同的目标用户使用相应的推荐方法,使得推荐给目标用户的电影最大化地符合目标用户的兴趣偏好。该电影推荐方法可解决现有技术中基于协同过滤的单一推荐算法存在无法为新用户或者电影评价数目较少的目标用户推荐电影的问题。
Description
技术领域
本发明属于推荐算法应用技术领域,尤其涉及一种电影推荐方法及装置。
背景技术
推荐系统在电子商务系统中具有良好的发展和应用前景,逐渐成为电子商务IT技术的一个重要研究内容。推荐系统最大的优点在于收集用户感兴趣的资料,分析该资料得出用户的兴趣偏好并根据用户的兴趣偏好为用户做出个性化推荐。目前,推荐系统己经被广泛的应用到不同领域,如电影推荐。基于协同过滤的推荐算法由于容易挖掘出用户的潜在新兴趣而受到青睐,目前的电影推荐系统基本采用该基于协同过滤的单一推荐算法。然而基于协同过滤的单一推荐算法存在无法为新用户或者电影评价数目较少的目标用户推荐电影的问题。
故,有必要提出一种新的技术方案,以解决上述技术问题。
发明内容
鉴于此,本发明实施例提供一种电影推荐方法及装置,以解决现有技术中基于协同过滤的单一推荐算法存在无法为新用户或者电影评价数目较少的目标用户推荐电影的问题。
本发明实施例的第一方面,提供一种电影推荐方法,所述方法包括:
识别目标用户,并判断所述目标用户是否为注册用户;
若是注册用户,则判断所述目标用户对电影的评价数目是否大于或等于预设评价阈值;
若所述评价数目大于或等于所述预设评价阈值,则基于电影特征的协同过滤推荐模型给所述目标用户推荐电影;
若不是注册用户或者所述评价数据小于所述预设评价阈值,则基于WEB使用挖掘的推荐模型给所述目标用户推荐电影。
本发明实施例的第二方面,提供一种装置,所述装置包括:
第一判断模块,用于识别目标用户,并判断所述目标用户是否为注册用户;
第二判断模块,用于若是注册用户,则判断所述目标用户对电影的评价数目是否大于或等于预设评价阈值;
基于电影特征的协同过滤推荐模块,用于若所述评价数目大于或等于所述预设评价阈值,则基于电影特征的协同过滤推荐模型给所述目标用户推荐电影;
基于WEB使用挖掘的推荐模块,用于若不是注册用户或者所述评价数据小于所述预设评价阈值,则基于WEB使用挖掘的推荐模型给所述目标用户推荐电影。
本发明实施例与现有技术相比存在的有益效果是:本发明所提供的电影推荐方法及装置中,识别目标用户,并判断所述目标用户是否为注册用户;若是注册用户,则判断所述目标用户对电影的评价数目是否大于或等于预设评价阈值;若所述评价数目大于或等于所述预设评价阈值,则基于电影特征的协同过滤推荐模型给所述目标用户推荐电影,该基于电影特征的协同过滤推荐模型是在一个群体中查找与目标用户相似兴趣的活动用户,通过查找到与目标用户最为相似的若干个活动用户的喜好,从而为目标用户进行推荐其所没有关注、观看或者评价过的电影,基于电影特征的协同过滤推荐模型具有很好的新颖性,可以推荐目标用户以前所没有关注、观看或者评价过的电影;该推荐模型若不是注册用户或者所述评价数据小于所述预设评价阈值,则基于WEB使用挖掘的推荐模型给所述目标用户推荐电影,基于WEB使用挖掘的推荐模型需要根据目标用户以往的兴趣来推测目标用户以后的兴趣,该推荐模型能够为新注册用户或者电影评价数目较少的目标用户推荐电影,很好地处理数据的“冷启动”问题;因此,该电影推荐方法可针对不同的目标用户使用相应的推荐方法,使得推荐给目标用户的电影最大化地符合目标用户的兴趣偏好。该电影推荐方法可解决现有技术中基于协同过滤的单一推荐算法存在无法为新用户或者电影评价数目较少的目标用户推荐电影的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的电影推荐方法的实现流程图;
图2是本发明实施例提供的电影推荐装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一
图1示出了本发明实施例一提供的电影推荐方法的实现流程图。如图1所示,该电影推荐方法包括如下步骤:
S1:识别目标用户,并判断目标用户是否为注册用户。
其中,目标用户可以是指当前在某网站进行网页浏览的用户。具体地,通过检测目标用户是否成功登录网站来判断目标用户是否为注册用户。
S2:若是注册用户,则判断目标用户对电影的评价数目是否大于或等于预设评价阈值。
若在S1中已经确定目标用户为注册用户,则继续判断目标用户对网站中的电影的评价数目是否大于或等于预设评价阈值。可选地,预设评价阈值可根据目标用户进行自定义。如该预设评价阈值可以为15,则判断已经注册的目标用户对网站中的电影的评价数目是否大于或等于15。
S3:若评价数目大于或等于预设评价阈值,则基于电影特征的协同过滤推荐模型给目标用户推荐电影。
如果监听到已经注册的目标用户对电影的评价数目大于或等于预设评价阈值,则基于电影特征的协同过滤推荐模型给目标用户推荐电影。例如,预设评价阈值为15,当监听到已经注册的目标用户对电影的评价数目大于或等于15时,基于电影特征的协同过滤推荐模型给目标用户推荐电影。该基于电影特征的协同过滤推荐模型是在一个群体中查找与目标用户相似兴趣的活动用户,通过查找到与目标用户最为相似的若干个活动用户的喜好,从而为目标用户进行推荐其所没有关注、观看或者评价过的电影,基于电影特征的协同过滤推荐模型具有很好的新颖性,可以推荐目标用户以前所没有关注、观看或者评价过的电影。
S4:若不是注册用户或者评价数据小于预设评价阈值,则基于WEB使用挖掘的推荐模型给目标用户推荐电影。
如目标用户不是注册用户,即以访客的身份浏览网页或者目标用户是注册用户但是目标用户对电影的评价数目小于预设评价阈值,则基于WEB使用挖掘的推荐模型给目标用户推荐电影。例如,预设评价阈值为15,当监听到目标用户不是注册用户或者已经是注册用户的目标用户对电影的评价数目小于15时,基于WEB使用挖掘的推荐模型给目标用户推荐电影。基于WEB使用挖掘的推荐模型需要根据目标用户以往的兴趣来推测目标用户以后的兴趣,该推荐模型能够为新注册用户或者电影评价数目较少的目标用户推荐电影,很好地处理数据的“冷启动”问题。
在本发明实施例中,识别目标用户,并判断所述目标用户是否为注册用户;若是注册用户,则判断所述目标用户对电影的评价数目是否大于或等于预设评价阈值;若所述评价数目大于或等于所述预设评价阈值,则基于电影特征的协同过滤推荐模型给所述目标用户推荐电影,该基于电影特征的协同过滤推荐模型是在一个群体中查找与目标用户相似兴趣的活动用户,通过查找到与目标用户最为相似的若干个活动用户的喜好,从而为目标用户进行推荐其所没有关注、观看或者评价过的电影,基于电影特征的协同过滤推荐模型具有很好的新颖性,可以推荐目标用户以前所没有关注、观看或者评价过的电影;该推荐模型若不是注册用户或者所述评价数据小于所述预设评价阈值,则基于WEB使用挖掘的推荐模型给所述目标用户推荐电影,基于WEB使用挖掘的推荐模型需要根据目标用户以往的兴趣来推测目标用户以后的兴趣,该推荐模型能够为新注册用户或者电影评价数目较少的目标用户推荐电影,很好地处理数据的“冷启动”问题;因此,该电影推荐方法可针对不同的目标用户使用相应的推荐方法,使得推荐给目标用户的电影最大化地符合目标用户的兴趣偏好。该电影推荐方法可解决现有技术中基于协同过滤的单一推荐算法存在无法为新用户或者电影评价数目较少的目标用户推荐电影的问题。
基于图1所示的实施例,进一步地,对步骤S3中基于电影特征的协同过滤推荐模型给目标用户推荐电影的过程进行优化,图1中的步骤S3的具体实现流程优化如下:
S31:采用聚类算法对活动用户进行聚类,以形成多个活动用户群。
活动用户是指除了目标用户之外的周围用户,采用聚类算法如K-means聚类算法对活动用户进行聚类,形成多个活动用户群。
S32:分别计算目标用户与每一活动用户群的中心的距离,选择与目标用户距离最近的活动用户群作为目标活动用户群。
首先找到每一个活动用户群的中心,分别计算目标用户与每一活动用户群的中心的距离,选择与目标用户距离最近的活动用户群作为目标活动用户群。例如有20个用户群,即有对应的20个中心包括中心1、中心2、……和中心20,分别计算目标用户与中心1、中心2、……和中心20的距离对应得到距离1、距离2、……和距离20,比较距离1、距离2、……和距离20的大小,选取最小的距离对应的用户群作为目标活动用户群。
S33:采用相似度测量方法计算目标用户与目标活动用户群中的活动用户的相似度,根据相似度确定目标用户最近邻居集。
采用包括但不限于“用户-电影”的特征相似测量方法,计算目标用户与目标活动用户群中的活动用户的相似度,通过对计算出来的相似度值进行从大到小的排列,优选地,选取相似度值排在前k位的活动用户作为目标用户最近邻居集。
S34:根据目标用户最近邻居集中的活动用户对目标用户未评价电影的评价数据,生成活动用户评分矩阵。
目标用户最近邻居集中的活动用户是与目标用户对电影的品味最相似的用户,根据这些目标用户最近邻居集中的活动用户对目标用户没有评价过的影片的各个特征属性包括导演、演员、类型、地区、时间和内容的评分,生成活动用户-电影特征评分矩阵。
S35:采用预测评分公式对活动用户评分矩阵进行处理,以获取目标用户未评价电影的预测评分。
预测评分公式如下:
其中,Pu,i表示目标用户u对电影i的评分,sim(i,n)表示电影i与最近邻居n之间的综合相似性,表示目标用户最近邻居集中的活动用户对电影n的评分。
S36:选取预测评分最高的TOP-N部电影作为推荐结果推荐给目标用户。
根据评分从高到低产生一个推荐列表,并根据预设的N,将列表的前N个电影推荐给目标用户。例如N=10,则选取列表前10个电影推荐给目标用户。
本实施例提供的方法不需要将目标用户与所有活动用户进行相似度计算,降低了相似度的计工作量,提高了工作效率。
基于图1所示的实施例,进一步地,对步骤S4中提供的基于WEB使用挖掘的推荐模型给目标用户推荐电影的过程进行优化,图1中的步骤S4的具体实现流程优化如下:
S41:获取网页数据,网页数据包括WEB日志。
WEB日志是指网页原始日志,未经过预处理。
S42:对WEB日志进行预处理,形成事务数据。
预处理包括数据净化、用户识别、会话识别和事务识别。
为了清除WEB日志中与挖掘算法无关的数据,对数据进行净化。由于用户会话只与日志中的HTML相关,目标是获取用户的行为模式,因此需要删除一些不相关的数据,如:后缀名为GIF、JPEG、JPG等图形文件、后缀名为CGI的脚本文件、被服务器拒绝的请求记录等。
为了给用户提供个性化服务,对用户进行识别。用户识别同时也是与用户会话识别的基础。主要通过IP地址及用户的Cookie来进行识别。
会话识别是对页面浏览行为的信息提取过程。一个会话记录着一个用户在一段时间内,连续的页面请求相关行为信息的集合。会话识别将系统或网站中属于目标用户的所有Web访问记录划分为过个会话并形成会话序列。在Web日志中,不同IP地址的用户请求记录不会出现在同一个会话中,同一个用户有可能多次访问了该站点,如果每次访问的时间跨度比较大,则认为不在同一个会话中。
事务识别是根据Web使用挖掘中模式发现的知识挖掘特性来确定与知识相对应的事务定义,不同的会话分析可以确定不同的事务,事务识别是对用户会话进行语义分组的过程。挖掘算法实施之前通常要将用户会话分割成更小的事务,这样就可以为每个用户建立起有意义的页面组合。
S43:采用基于WEB使用挖掘的推荐算法,获取与事务数据相对应的推荐结果。
根据事务数据以及目标用户当前的会话,采用基于WEB使用挖掘的推荐算法,获取与事务数据相对应的推荐结果。
基于上述实施例中步骤S43中基于WEB使用挖掘的推荐算法,进一步地,对步骤S43进行优化,步骤S43的具体实现流程优化如下:
S430:对事务数据进行聚类分析,得到m个事务聚类类簇。
对预处理后得到的事务数据进行聚类分析,聚类分析方法包括但不限于K-Means聚类算法,得到m个事务聚类类簇。聚类的结果可以表示为:TC={tc1,,tc2,,…,tcm,},其中每个事务聚类类簇tci,由一系列事务组成。
S431:创建滑动窗口动态保存目标用户当前会话中最后的k个页面。
动态保存目标用户当前会话中最后的k个页面相当于刷新页面,始终保存的是最新的k个页面,k的值可根据需要进行预设;创建滑动窗口动态保存目标用户当前会话中最后的k个页面。
S432:将目标用户当前会话中最后的k个页面转换为页面空间上的n维向量,n维向量表示为S={s1,s2,…,sn},其中si的取值根据页面Pi在当前会话中最后的k个页面是否出现而确定,即:
s1的取值根据页面P1在当前会话中最后的k个页面是否出现而确定,若P1出现在当前会话中最后的k个页面中则s1取1,P1不出现在当前会话中最后的k个页面中则s1取0,s2、s3、……和sn的取值过程与s1的取值过程类似,在此不再赘述。
S433:计算n维向量S与m个事务聚类类簇的使用特征Rtc之间的匹配度,采用余弦相似性函数,公式如下:
S434:计算各页面的推荐系数,公式如下:
其中,Weight(p,tc)表示页面所属事务聚类类簇中的权重。
S435:根据页面推荐系数将推荐系数最大且在目标用户当前会话中没有出现的若干页面作为推荐列表。
基于上述实施例中步骤S430中对事务数据进行聚类分析的实现流程,进一步地,对步骤S430进行优化,步骤S430的具体实现流程优化如下:
S4300:随机选择m个事务作为初始的簇中心。
随机选择m个事务作为初始的聚类类簇中心。
S4301:将事务赋给中心与之最近的类簇。
分别计算每个事务到初始的m个聚类类类簇中心的距离,选择最近的中心作为其分类,直到所有的事务分类完毕。
S4302:计算每个事务类簇中事务的平均值,更新类簇的中心,公式如下:
其中,表示事务类簇中事务的平均值。
分别计算m个类簇中所有事务的质心,更新类簇的中心。
S4303:计算准则函数E直到函数E不再明显发生变化,公式如下:
其中p表示页面,mi是事务聚类类簇tci的平均值,即事务聚类类簇tci的中心。
S4304:根据页面在事务中的权重来计算该页面所属事务聚类类簇中的权重,公式如下:
其中,tc表示事务聚类类簇,t表示事务聚类类簇中的事务。
S4305:根据Weight(p,tc)来确定事务聚类类簇tc的使用特征Rtc,公式如下:
Rtc={<p,Weight(p,tc)>|p∈P,Weight(p,tc)≥μ},μ为显著性阈值。
此步骤是根据预设的显著性阈值将支持度小于指定显著性闭值得页面过滤掉来保证给目标用户推荐的电影的精确性。
S4306:将事务聚类类簇的使用特征Rtc表示为如下的n维向量:
Rt={r1,r2,…,rn},其中ri取值为:
对应于上文实施例的电影推荐方法,图2示出了本发明实施例提供的电影推荐装置的结构框图,详述如下:
参考图2,该电影推荐装置包括第一判断模块、第二判断模块
第一判断模块21,用于识别目标用户,并判断目标用户是否为注册用户;
第二判断模块22,用于若是注册用户,则判断目标用户对电影的评价数目是否大于或等于预设评价阈值;
基于电影特征的协同过滤推荐模块23,用于若评价数目大于或等于预设评价阈值,则基于电影特征的协同过滤推荐模型给目标用户推荐电影;
基于WEB使用挖掘的推荐模块24,用于若不是注册用户或者评价数据小于预设评价阈值,则基于WEB使用挖掘的推荐模型给目标用户推荐电影。
可选地,基于电影特征的协同过滤推荐模块包括:
聚类子模块,用于采用聚类算法对活动用户进行聚类,以形成多个活动用户群;
第一计算子模块,用于分别计算目标用户与每一活动用户群的中心的距离,选择与目标用户距离最近的活动用户群作为目标活动用户群;
第二计算子模块,用于采用相似度测量方法计算目标用户与目标活动用户群中的活动用户的相似度,根据相似度确定目标用户最近邻居集;
生成子模块,用于根据目标用户最近邻居集中的活动用户对目标用户未评价电影的评价数据,生成活动用户评分矩阵;
处理子模块,用于采用预测评分公式对活动用户评分矩阵进行处理,以获取目标用户未评价电影的预测评分;
第一推荐子模块,用于选取预测评分最高的TOP-N部电影作为推荐结果推荐给目标用户。
可选地,基于WEB使用挖掘的推荐模块包括:
获取子模块,用于获取网页数据,网页数据包括WEB日志;
预处理子模块,用于对WEB日志进行预处理,形成事务数据;
第二推荐子模块,采用基于WEB使用挖掘的推荐算法,获取与事务数据相对应的推荐结果。
可选地,第二推荐子模块包括:
聚类分析单元,用于对事务数据进行聚类分析,得到m个事务聚类类簇;
创建单元,用于创建滑动窗口动态保存目标用户当前会话中最后的k个页面;
转换单元,用于将目标用户当前会话中最后的k个页面转换为页面空间上的n维向量,n维向量表示为S={s1,s2,…,sn},其中si的取值根据页面Pi在当前会话中最后的k个页面是否出现而确定,即:
第一计算单元,用于计算n维向量S与k个事务聚类类簇的使用特征Rtc之间的匹配度,采用余弦相似性函数,公式如下:
第二计算单元,用于计算各页面的推荐系数,公式如下:
其中,Weight(p,tc)表示页面所属事务聚类类簇中的权重;
推荐单元,用于根据页面推荐系数将推荐系数最大且在目标用户当前会话中没有出现的若干页面作为推荐列表。
可选地,对事务数据进行聚类分析单元包括:
初始子单元,用于随机选择k个事务作为初始的类簇中心;
赋给子单元,用于将事务赋给中心与之最近的类簇;
第一计算子单元,用于计算每个事务类簇中事务的平均值,更新类簇的中心,公式如下:
其中,表示事务类簇中事务的平均值;
第二计算子单元,用于计算准则函数E直到函数E不再明显发生变化,公式如下:
其中p表示页面,mi是事务聚类类簇tci的平均值,即事务聚类类簇tci的中心;
第三计算子单元,用于根据页面在事务中的权重来计算该页面所属事务聚类类簇中的权重,公式如下:
其中,tc表示事务聚类类簇,t表示事务聚类类簇中的事务;
确定子单元,用于根据Weight(p,tc)来确定事务聚类类簇tc的使用特征Rtc,公式如下:
Rtc={<p,Weight(p,tc)>|p∈P,Weight(p,tc)≥μ},μ为显著性阈值;
表示子单元,用于将事务聚类类簇的使用特征Rtc表示为如下的n维向量:
Rtc={r1,r2,…,rn},其中ri取值为:
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种电影推荐方法,其特征在于,包括:
识别目标用户,并判断所述目标用户是否为注册用户;
若是注册用户,则判断所述目标用户对电影的评价数目是否大于或等于预设评价阈值;
若所述评价数目大于或等于所述预设评价阈值,则基于电影特征的协同过滤推荐模型给所述目标用户推荐电影;
若不是注册用户或者所述评价数据小于所述预设评价阈值,则基于WEB使用挖掘的推荐模型给所述目标用户推荐电影。
2.如权利要求1所述的方法,所述基于电影特征的协同过滤推荐模型给所述目标用户推荐电影包括:
采用聚类算法对活动用户进行聚类,以形成多个活动用户群;
分别计算所述目标用户与每一所述活动用户群的中心的距离,选择与所述目标用户距离最近的活动用户群作为目标活动用户群;
采用相似度测量方法计算所述目标用户与所述目标活动用户群中的活动用户的相似度,根据所述相似度确定目标用户最近邻居集;
根据所述目标用户最近邻居集中的活动用户对目标用户未评价电影的评价数据,生成活动用户评分矩阵;
采用预测评分公式对所述活动用户评分矩阵进行处理,以获取目标用户未评价电影的预测评分;
选取预测评分最高的TOP-N部电影作为推荐结果推荐给目标用户。
3.如权利要求1所述的方法,所述基于WEB使用挖掘的推荐模型给所述目标用户推荐电影包括:
获取网页数据,所述网页数据包括WEB日志;
对所述WEB日志进行预处理,形成事务数据;
采用基于WEB使用挖掘的推荐算法,获取与所述事务数据相对应的推荐结果。
4.如权利要求3所述的方法,其特征在于,所述基于WEB使用挖掘的推荐算法包括:
对所述事务数据进行聚类分析,得到m个事务聚类类簇;
创建滑动窗口动态保存目标用户当前会话中最后的k个页面;
将目标用户当前会话中最后的k个页面转换为页面空间上的n维向量,所述n维向量表示为S={s1,s2,…,sn},其中si的取值根据页面Pi在当前会话中最后的k个页面是否出现而确定,即:
计算所述n维向量S与所述k个事务聚类类簇的使用特征Rtc之间的匹配度,采用余弦相似性函数,公式如下:
计算各页面的推荐系数,公式如下:
其中,Weight(p,tc)表示页面所属事务聚类类簇中的权重;
根据页面推荐系数将推荐系数最大且在目标用户当前会话中没有出现的若干页面作为推荐列表。
5.如权利要求4所述的方法,其特征在于,所述对所述事务数据进行聚类分析包括:
随机选择m个事务作为初始的类簇中心;
将事务赋给中心与之最近的类簇;
计算每个事务类簇中事务的平均值,更新类簇的中心,公式如下:
其中,表示事务类簇中事务的平均值;
计算准则函数E直到所述函数E不再明显发生变化,公式如下:
其中p表示页面,mi是事务聚类类簇tci的平均值,即事务聚类类簇tci的中心;
根据页面在事务中的权重来计算该页面所属事务聚类类簇中的权重,公式如下:
其中,tc表示事务聚类类簇,t表示事务聚类类簇中的事务;
根据Weight(p,tc)来确定事务聚类类簇tc的使用特征Rtc,公式如下:
Rtc={<p,Weight(p,tc)>|p∈P,Weight(p,tc)≥μ},μ为显著性阈值;
将所述事务聚类类簇的使用特征Rtc表示为如下的n维向量:
Rtc={r1,r2,…,rn},其中ri取值为:
6.一种电影推荐装置,其特征在于,所述装置包括:
第一判断模块,用于识别目标用户,并判断所述目标用户是否为注册用户;
第二判断模块,用于若是注册用户,则判断所述目标用户对电影的评价数目是否大于或等于预设评价阈值;
基于电影特征的协同过滤推荐模块,用于若所述评价数目大于或等于所述预设评价阈值,则基于电影特征的协同过滤推荐模型给所述目标用户推荐电影;
基于WEB使用挖掘的推荐模块,用于若不是注册用户或者所述评价数据小于所述预设评价阈值,则基于WEB使用挖掘的推荐模型给所述目标用户推荐电影。
7.如权利要求6所述的装置,所述基于电影特征的协同过滤推荐模块包括:
聚类子模块,用于采用聚类算法对活动用户进行聚类,以形成多个活动用户群;
第一计算子模块,用于分别计算所述目标用户与每一所述活动用户群的中心的距离,选择与所述目标用户距离最近的活动用户群作为目标活动用户群;
第二计算子模块,用于采用相似度测量方法计算所述目标用户与所述目标活动用户群中的活动用户的相似度,根据所述相似度确定目标用户最近邻居集;
生成子模块,用于根据所述目标用户最近邻居集中的活动用户对目标用户未评价电影的评价数据,生成活动用户评分矩阵;
处理子模块,用于采用预测评分公式对所述活动用户评分矩阵进行处理,以获取目标用户未评价电影的预测评分;
第一推荐子模块,用于选取预测评分最高的TOP-N部电影作为推荐结果推荐给目标用户。
8.如权利要求6所述的装置,所述基于WEB使用挖掘的推荐模块包括:
获取子模块,用于获取网页数据,所述网页数据包括WEB日志;
预处理子模块,用于对所述WEB日志进行预处理,形成事务数据;
第二推荐子模块,采用基于WEB使用挖掘的推荐算法,获取与所述事务数据相对应的推荐结果。
9.如权利要求8所述的装置,其特征在于,所述第二推荐子模块包括:
聚类分析单元,用于对所述事务数据进行聚类分析,得到m个事务聚类类簇;
创建单元,用于创建滑动窗口动态保存目标用户当前会话中最后的k个页面;
转换单元,用于将目标用户当前会话中最后的k个页面转换为页面空间上的n维向量,所述n维向量表示为S={s1,s2,…,sn},其中si的取值根据页面Pi在当前会话中最后的k个页面是否出现而确定,即:
第一计算单元,用于计算所述n维向量S与所述k个事务聚类类簇的使用特征Rtc之间的匹配度,采用余弦相似性函数,公式如下:
第二计算单元,用于计算各页面的推荐系数,公式如下:
其中,Weight(p,tc)表示页面所属事务聚类类簇中的权重;
推荐单元,用于根据页面推荐系数将推荐系数最大且在目标用户当前会话中没有出现的若干页面作为推荐列表。
10.如权利要求9所述的装置,其特征在于,所述对所述事务数据进行聚类分析单元包括:
初始子单元,用于随机选择k个事务作为初始的类簇中心;
赋给子单元,用于将事务赋给中心与之最近的类簇;
第一计算子单元,用于计算每个事务类簇中事务的平均值,更新类簇的中心,公式如下:
其中,表示事务类簇中事务的平均值;
第二计算子单元,用于计算准则函数E直到所述函数E不再明显发生变化,公式如下:
其中p表示页面,mi是事务聚类类簇tci的平均值,即事务聚类类簇tci的中心;
第三计算子单元,用于根据页面在事务中的权重来计算该页面所属事务聚类类簇中的权重,公式如下:
其中,tc表示事务聚类类簇,t表示事务聚类类簇中的事务;
确定子单元,用于根据Weight(p,tc)来确定事务聚类类簇tc的使用特征Rtc,公式如下:
Rtc={<p,Weight(p,tc)>|p∈P,Weight(p,tc)≥μ},μ为显著性阈值;
表示子单元,用于将所述事务聚类类簇的使用特征Rtc表示为如下的n维向量:
Rtc={r1,r2,…,rn},其中ri取值为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611169017.5A CN106779946A (zh) | 2016-12-16 | 2016-12-16 | 一种电影推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611169017.5A CN106779946A (zh) | 2016-12-16 | 2016-12-16 | 一种电影推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106779946A true CN106779946A (zh) | 2017-05-31 |
Family
ID=58892311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611169017.5A Pending CN106779946A (zh) | 2016-12-16 | 2016-12-16 | 一种电影推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106779946A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108320183A (zh) * | 2018-01-26 | 2018-07-24 | 杨刚 | 一种以玩商测试为首步的泛娱乐综合服务系统及方法 |
CN109190023A (zh) * | 2018-08-15 | 2019-01-11 | 深圳信息职业技术学院 | 协同推荐的方法、装置及终端设备 |
CN109903138A (zh) * | 2019-02-28 | 2019-06-18 | 华中科技大学 | 一种个性化商品推荐方法 |
CN110070134A (zh) * | 2019-04-25 | 2019-07-30 | 厦门快商通信息咨询有限公司 | 一种基于用户兴趣感知的推荐方法及装置 |
CN110135948A (zh) * | 2019-05-09 | 2019-08-16 | 西北民族大学 | 一种面向电子商务平台商品的推荐系统及方法 |
CN111966907A (zh) * | 2020-08-21 | 2020-11-20 | 贝壳技术有限公司 | 用户偏好冷启动方法、装置、介质和电子设备 |
CN112287243A (zh) * | 2020-10-20 | 2021-01-29 | 山大地纬软件股份有限公司 | 一种基于协同过滤算法的服务信息推荐的装置及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254265A (zh) * | 2010-05-18 | 2011-11-23 | 北京首家通信技术有限公司 | 一种富媒体互联网广告内容匹配、效果评估方法 |
CN103678672A (zh) * | 2013-12-25 | 2014-03-26 | 北京中兴通软件科技股份有限公司 | 一种信息推荐方法 |
CN103744966A (zh) * | 2014-01-07 | 2014-04-23 | Tcl集团股份有限公司 | 一种物品推荐方法、装置 |
CN105045931A (zh) * | 2015-09-02 | 2015-11-11 | 南京邮电大学 | 一种基于Web挖掘的视频推荐方法和系统 |
-
2016
- 2016-12-16 CN CN201611169017.5A patent/CN106779946A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102254265A (zh) * | 2010-05-18 | 2011-11-23 | 北京首家通信技术有限公司 | 一种富媒体互联网广告内容匹配、效果评估方法 |
CN103678672A (zh) * | 2013-12-25 | 2014-03-26 | 北京中兴通软件科技股份有限公司 | 一种信息推荐方法 |
CN103744966A (zh) * | 2014-01-07 | 2014-04-23 | Tcl集团股份有限公司 | 一种物品推荐方法、装置 |
CN105045931A (zh) * | 2015-09-02 | 2015-11-11 | 南京邮电大学 | 一种基于Web挖掘的视频推荐方法和系统 |
Non-Patent Citations (2)
Title |
---|
李晓晔 等: "基于Web使用挖掘的个性化推荐服务研究", 《齐齐哈尔大学学报》 * |
杨晓明 等: "基于Web使用挖掘和结构挖掘的个性化网络教学系统的设计与实现", 《新疆石油天然气》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108320183A (zh) * | 2018-01-26 | 2018-07-24 | 杨刚 | 一种以玩商测试为首步的泛娱乐综合服务系统及方法 |
CN109190023A (zh) * | 2018-08-15 | 2019-01-11 | 深圳信息职业技术学院 | 协同推荐的方法、装置及终端设备 |
CN109903138A (zh) * | 2019-02-28 | 2019-06-18 | 华中科技大学 | 一种个性化商品推荐方法 |
CN110070134A (zh) * | 2019-04-25 | 2019-07-30 | 厦门快商通信息咨询有限公司 | 一种基于用户兴趣感知的推荐方法及装置 |
CN110135948A (zh) * | 2019-05-09 | 2019-08-16 | 西北民族大学 | 一种面向电子商务平台商品的推荐系统及方法 |
CN111966907A (zh) * | 2020-08-21 | 2020-11-20 | 贝壳技术有限公司 | 用户偏好冷启动方法、装置、介质和电子设备 |
CN112287243A (zh) * | 2020-10-20 | 2021-01-29 | 山大地纬软件股份有限公司 | 一种基于协同过滤算法的服务信息推荐的装置及方法 |
CN112287243B (zh) * | 2020-10-20 | 2023-04-28 | 山大地纬软件股份有限公司 | 一种基于协同过滤算法的服务信息推荐的装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106779946A (zh) | 一种电影推荐方法及装置 | |
CN104750789B (zh) | 标签的推荐方法及装置 | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN104077415B (zh) | 搜索方法及装置 | |
CN111259263B (zh) | 一种物品推荐方法、装置、计算机设备及存储介质 | |
CN109993583B (zh) | 信息推送方法和装置、存储介质及电子装置 | |
WO2009126815A2 (en) | Diversified, self-organizing map system and method | |
CN104216881A (zh) | 一种个性化标签的推荐方法及装置 | |
CN103678647A (zh) | 一种实现信息推荐的方法及系统 | |
KR20150036117A (ko) | 쿼리 확장 | |
Wan et al. | Web user clustering and Web prefetching using Random Indexing with weight functions | |
CN105426550A (zh) | 一种基于用户质量模型的协同过滤标签推荐方法及系统 | |
CN106227866A (zh) | 一种基于数据挖掘的混合过滤电影推荐方法 | |
Liu et al. | Online recommendations based on dynamic adjustment of recommendation lists | |
Tao et al. | Dynamic feature weighting based on user preference sensitivity for recommender systems | |
Mehta et al. | Collaborative personalized web recommender system using entropy based similarity measure | |
Sánchez-Moreno et al. | Recommendation of songs in music streaming services: Dealing with sparsity and gray sheep problems | |
CN112036987B (zh) | 确定推荐商品的方法和装置 | |
Yu et al. | A novel framework to alleviate the sparsity problem in context-aware recommender systems | |
Xu et al. | Co-clustering analysis of weblogs using bipartite spectral projection approach | |
CN106951459A (zh) | 基于熵值法的改进协同过滤推荐算法 | |
CN111723273A (zh) | 一种智慧云检索系统及方法 | |
ur Rehman et al. | Frequency-based similarity measure for multimedia recommender systems | |
Shi et al. | Library book recommendation with CNN-FM deep learning approach | |
Chawla | Intelligent web search system for personalised web search based on recommendation of web page communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |