CN108717442B - 基于机器学习的相似影视推荐方法 - Google Patents

基于机器学习的相似影视推荐方法 Download PDF

Info

Publication number
CN108717442B
CN108717442B CN201810469757.3A CN201810469757A CN108717442B CN 108717442 B CN108717442 B CN 108717442B CN 201810469757 A CN201810469757 A CN 201810469757A CN 108717442 B CN108717442 B CN 108717442B
Authority
CN
China
Prior art keywords
user
television
node
movie
film
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810469757.3A
Other languages
English (en)
Other versions
CN108717442A (zh
Inventor
钟波
肖适
刘志明
王招辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Jimi Technology Co Ltd
Original Assignee
Chengdu Jimi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Jimi Technology Co Ltd filed Critical Chengdu Jimi Technology Co Ltd
Priority to CN201810469757.3A priority Critical patent/CN108717442B/zh
Publication of CN108717442A publication Critical patent/CN108717442A/zh
Application granted granted Critical
Publication of CN108717442B publication Critical patent/CN108717442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于机器学习的相似影视推荐方法,包括:影视信息预处理;根据预处理信息建立奇异值分解模型并得到初步候选集;用户观影行为信息处理;根据用户观影行为信息建立改进的频繁项集增长模型并对初步候选集重新排序,得到最终候选集。本发明在推荐过程中将用户观影行为有效结合起来,从而使推荐结果更加贴合用户需求。

Description

基于机器学习的相似影视推荐方法
技术领域
本发明涉及影视推荐领域,具体涉及一种基于机器学习的相似影视推荐方法。
背景技术
目前,视频平台基本都具有智能视频推荐系统,用户在通过视频平台查看某视频的介绍或观看某视频后,平台的智能视频推荐系统就会自动为用户推荐并呈现与用户所查看或观看的视频相关的视频,可以在避免用户手动搜索的情况下,帮助用户找到相关视频,不但方便了用户,而且增加了用户在视频网站上的停留时间。
但是现有的智能视频推荐系统大多通过搜索相关视频并确定视频之间的相似度,再根据相似度的大小向用户推荐视频,而确定视频之间的相似度时,通常采用的方法是基于视频内容来实现,具体而言即是采用影视信息特征做推荐,由于未结合用户兴趣和观影行为,存在如下缺陷:(1)关联影视推荐变化不大;(2)未考虑影视流行度随时间的变化,从而使推荐的影视与用户的需求贴合度不高。
发明内容
有鉴于此,本申请提供一种基于机器学习的相似影视推荐方法,本方法在推荐过程中将用户观影行为有效结合起来,从而使推荐结果更加贴合用户需求。本发明通过以下技术手段实现:
基于机器学习的相似影视推荐方法,包括
影视信息预处理;
根据预处理信息建立奇异值分解模型并得到初步候选集;
用户观影行为信息处理;
根据用户观影行为信息建立改进的频繁项集增长模型并对初步候选集重新排序,得到最终候选集。
进一步地,所述影视信息预处理具体包括:
提取影视维度标签,对每个维度下的标签赋予基础权重W0
计算所有用户中每个最关注维度标签的占比p;
根据公式(Ⅰ)调整每个最关注维度标签的基础权重,得到每个最关注维度标签下所有标签的初步权重W1
W1=W0(1+ap) (Ⅰ)
提取用户搜索词记录,得到每个搜索词的搜索频次的归一化处理结果值p1
根据标签的初步权重,通过公式(Ⅱ)得到每个搜索词对应的标签权重W2
W2=W1(1+a1p1) (Ⅱ)
其中,a和a1均为算法超参数。
进一步地,所述计算所有用户中每个最关注维度标签的占比p具备包括:
统计每个标签对应的影视数量n1
根据每个用户观影记录,分别统计每个用户中每个标签对应的影视数量n2
根据公式(Ⅲ)得到每个用户中每个标签对应影视数量的占比p0
p0=n2/n1 (Ⅲ)
设置影视阈值n;
对于其中一个用户,若n2大于n,则n2对应的标签隶属维度为该用户最关注维度,若n2小于n,则p0最大时n2对应的标签隶属维度为该用户最关注维度,以此类推,得到所有用户最关注的维度;
根据所有用户最关注的维度,得到所有用户最关注的维度占比p。
进一步地,所述提取用户搜索词记录,得到每个搜索词的搜索频次的归一化处理结果值p1具体包括:根据公式(Ⅳ)得到每个搜索词的搜索频次的归一化处理结果值p1
p1=f/max(f) (Ⅳ)
其中,f为每个搜索词的搜索频次,max(f)为所有搜索词中最大的搜索频次。
进一步地,所述根据预处理信息建立奇异值分解模型并得到初步候选集具体包括:
根据每个维度标签中每个搜索词对应的标签权重W2得到稀疏矩阵,并将所述稀疏矩阵分布式储存;
通过奇异值分解算法对稀疏矩阵进行降维,得到密集矩阵;
根据密集矩阵,通过余弦相似性原理获取相似影视,得到初步候选集。
进一步地,所述通过奇异值分解算法对稀疏矩阵进行降维,得到密集矩阵具体包括:
通过公式(Ⅴ)对稀疏矩阵进行奇异值分解,得到对密集矩阵;
Am×n=Um×rΣr×rVT r×n (Ⅴ)
其中,A为m*n的稀疏矩阵,m表示行数,与影视库中的影视数量相等,n表示列数,与所有维度标签的标签数量相等,A中每一列的元素值为维度标签中每个影视对应的同一标签的不同权重值W2;U为m*r的降维矩阵,m表示行数,与影视库中的影视数量相等,r表示列数,为预先设定的值;∑为奇异值矩阵,∑*V的转置为密集矩阵。
进一步地,所述根据密集矩阵,通过余弦相似性原理获取相似影视,得到初步候选集具体包括:
通过公式(Ⅵ)得到影视库中所有影视的相似度cosθ;
Figure GDA0003290421920000031
取相似度最大的K个影视最为初步候选集;
其中,A表示用户观看影视,B表示影视库中的影视,Ai和Bi均为密集矩阵中的影视行向量。
进一步地,所述用户观影行为信息处理具体包括:
从每个用户观影记录中提取每个影视观看时长t、观影日期d;
根据公式(Ⅶ)对观看时长t进行归一化处理,得到时长因子y;根据公式(Ⅷ)对观影日期d进行归一化处理,得到流行度衰减因子alpha;
y=ln(t)/max(ln(t)) (Ⅶ)
alpha=ln(d)/max(ln(d)) (Ⅷ)
根据公式(Ⅸ)计算每个用户已观看影视的权重W3
W3=W0(1+y+alpha/c) (Ⅸ)
其中,ln为自然对数函数,c取值为3。
进一步地,所述根据用户观影行为信息建立改进的频繁项集增长模型和初步候选集得到最终候选集具备包括:
根据公式(Ⅹ)计算每个影视的支持度;
Figure GDA0003290421920000041
其中,s为支持度,T为所有用户已观看的影视的权重之和,σ(X∪Y)为并集,其中,σ(X)和σ(Y)分别为影片观看热门度
Figure GDA0003290421920000042
其中W为某用户观看该影片的权重,n为影片观看人数;
获取每个用户观看记录中的支持度大于预设值的影视;
对每个用户创建事务项,每个用户的事务项包括以获取的该用户的影视为节点的事务路径,每个节点的值为对应影视的权重W3,每个事务项的节点按照对应影视的支持度递减依次连接构成事务路径;
根据所有事务项构建改进的频繁项集增长模型,根据改进的频繁项集增长模型和初步候选集得到最终候选集。
进一步地,所述根据所有事务项构建改进的频繁项集增长模型,根据改进的频繁项集增长模型得到最终候选集具体为:
读取第一个事务项,所述第一个事务项包括一个抬头,所述抬头连接第一个事务项的事务路径的第一个节点;
读取第二个事务项,判断第二个事务项的第一个节点对应的影视是否与第一个事务项的第一个节点对应的影视相同,如果相同,进行下一步,否则,将第二个事务项的第一个节点与第一个事务项的抬头连接,构成两条独立的事务路径;
将第二个事务项的第一个节点与第一个事务项的第一个节点合并,合并后的节点值为第二个事务项的第一个节点与第一个事务项的第一个节点的节点值之和;
判断第二个事务项的第二个节点对应的影视是否与第一个事务项的第二个节点对应的影视相同,如果相同,进行下一步,否则,第二个事务项的第二节点与合并后的第一节点连接,并与第二个事务项的其余节点构成一条独立的事务路径;
将第二个事务项的第二个节点与第一个事务项的第二个节点合并,合并后的节点值为第二个事务项的第二个节点与第一个事务项的第二个节点的节点值之和;
判断第二个事务项的第三个节点对应的影视是否与第一个事务项的第三个节点对应的影视相同,以此类推,直到将第二个事务项完整加入到第一事务项;
以此类推,依次加入剩下的事务项,构成改进的频繁项集增长模型;
根据公式(Ⅺ)和公式(Ⅻ)分别计算每个影视的置信度和提升度;
Figure GDA0003290421920000051
Figure GDA0003290421920000052
其中,c为置信度,f为提升度;
对改进的频繁项集增长模型传入置信度和提升度,得到改进的频繁项集增长模型推荐结果,并与初步候选集进行匹配,将共同地推荐影视作为最终候选集
本发明提供的基于机器学习的相似影视推荐方法在推荐过程中将用户观影行为有效结合起来,通过引入用户观影行为中的观看时长和观影日期,可以有效考虑到将用户对流行度的需求,并且本发明采用了多种机器学习算法融合技术,可以使推荐结果更加准确,也更加贴合用户需求。
附图说明
图1为本发明提供的基于机器学习的相似影视推荐方法流程图。
图2为用户1的事务项示意图。
图3为在用户1的事务项基础上加入用户2的事务项构成的示意图。
图4为在图3的基础上加入用户3的事务项构成的示意图。
图5为在图4的基础上加入用户4的事务项构成的改进的频繁项集增长模型示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步的详细说明。
实施例
如图1所示,本实施例提供一种基于机器学习的相似影视推荐方法,包括:
步骤S1:影视信息预处理;
步骤S2:根据预处理信息建立奇异值分解模型并得到初步候选集;
步骤S3:用户观影行为信息处理;
步骤S4:根据用户观影行为信息建立改进的频繁项集增长模型并对初步候选集重新排序,得到最终候选集。
这里需要说明的是,奇异值分解模型可以描述为SVD模型,改进的频繁项集增长模型可以描述为FP-Growth模型。
具体地,所述影视信息预处理,即步骤S1,具体包括:
步骤S11:提取影视维度标签,对每个维度下的标签赋予基础权重W0
步骤S12:计算所有用户中每个最关注维度标签的占比p;
步骤S13:根据公式(Ⅰ)调整每个最关注维度标签的基础权重,得到每个最关注维度标签下所有标签的初步权重W1
W1=W0(1+ap) (Ⅰ)
步骤S14:提取用户搜索词记录,得到每个搜索词的搜索频次的归一化处理结果值p1
步骤S15:根据标签的初步权重,通过公式(Ⅱ)得到每个搜索词对应的标签权重W2
W2=W1(1+a1p1) (Ⅱ)
其中,a和a1均为算法超参数。
这里需要说明的是,本实施例中,可以将每个维度标签的基础权重W0的值设为1;a和a1均为算法超参数,a和a1的初始值可以设置为1,具体值可以根据实际用户观看记录进行调整。
还需要说明的是,维度标签就是指演员、导演等概括性的某一类标签,每个维度标签下包含了具体标签,如演员这一维度下的标签可以具体包括朱茵、刘德华、范冰冰等,对某个维度标签的权重进行调整就是对这个维度下所有标签权重进行调整。
对于所有用户来说,每个用户都有自己最关注的维度,把每个用户最关注的维度找出来,就可以统计出每个最关注的维度在所有最关注的维度中所占比例,即为步骤S12中所述所有用户中每个最关注维度的占比p。
具体地,所述计算所有用户最关注维度的占比p,即步骤S12,具备包括:
步骤S121:统计每个标签对应的影视数量n1
步骤S122:根据每个用户观影记录,分别统计每个用户中每个标签对应的影视数量n2
步骤S123:根据公式(Ⅲ)得到每个用户中每个标签对应影视数量的占比p0
p0=n2/n1 (Ⅲ)
步骤S124:设置影视阈值n;
步骤S125:对于其中一个用户,若n2大于n,则n2对应的标签隶属维度为该用户最关注维度,若n2小于n,则p0最大时n2对应的标签隶属维度为该用户最关注维度,以此类推,得到所有用户最关注的维度;
步骤S126:根据所有用户最关注的维度,得到所有用户最关注的维度占比p。
这里需要说明的是,对于步骤S121,统计每个标签对应的影视数量就是统计每个具体标签对应的影视数量,比如演员刘德华对应的影视数量,导演冯小刚对应的影视数量等,对于步骤S123的公式(Ⅲ),n1和n2对应的标签是相同的。
这里需要说明的是,n1和n2均为变量,即不同的标签对应的影视数量n1不同,相同的用户不同的标签对应的影视数量n2也不同,实施本实施例时会设置影视阈值n,对于计算得到初步占比p0后,如果n2大于n,则可得n2对应的标签隶属维度即为用户最关注维度,如果n2小于n,则可得p0最大时对应的标签隶属维度为用户最关注维度。
还需要说明的是,对于步骤S126,每个用户最关注的维度都会有一个比值,比如有100个用户,用户1—60最关注的维度为主演,用户61—90最关注的维度为主旨,用户91—100最关注的维度为重要配演,那么对于所有用户来说,最关注的维度有三个:主演、主旨和重要配演,其中,主演这一最关注的维度占比为60%,主旨这一最关注的维度占比为30%,重要配演这一最关注的维度占比为10%,根据这三个占比值,可以根据公式(Ⅰ)调整得到这三个维度标签下所有标签的权重值。当然,影视标签和用户数量在实际情况中会远远大于所举的数量,对于所有用户来说,最关注的维度也不会仅仅只有三个,这里的举例只是为了解释和理解。
具体地,所述提取用户搜索词记录,得到每个搜索词的搜索频次的归一化处理结果值p1,即步骤S14,具体包括:根据公式(Ⅳ)得到每个搜索词的搜索频次的归一化处理结果值p1
p1=f/max(f) (Ⅳ)
其中,f为每个搜索词的搜索频次,max(f)为所有搜索词中最大的搜索频次。
具体地,所述根据预处理信息建立奇异值分解模型并得到初步候选集,即步骤S2,具体包括:
步骤S21:根据每个维度标签中每个搜索词对应的标签权重W2得到稀疏矩阵,并将所述稀疏矩阵分布式储存;
步骤S22:通过奇异值分解算法对稀疏矩阵进行降维,得到密集矩阵;
步骤S23:根据密集矩阵,通过余弦相似性原理获取相似影视,得到初步候选集。
具体地,所述通过奇异值分解算法对稀疏矩阵进行降维,得到密集矩阵,即步骤S22,具体包括:通过公式(Ⅴ)对稀疏矩阵进行奇异值分解,得到对密集矩阵;
Am×n=Um×rΣr×rVT r×n (Ⅴ)
其中,A为m*n的稀疏矩阵,m表示行数,与影视库中的影视数量相等,n表示列数,与所有维度标签的标签数量相等,A中每一列的元素值为维度标签中每个影视对应的同一标签的不同权重值W2;U为m*r的降维矩阵,m表示行数,与影视库中的影视数量相等,r表示列数,为预先设定的值;∑为奇异值矩阵,∑*V的转置为密集矩阵。
具体地,所述根据密集矩阵,通过余弦相似性原理获取相似影视,得到初步候选集,即步骤S23,具体包括:
步骤S231:通过公式(Ⅵ)得到影视库中所有影视的相似度cosθ;
Figure GDA0003290421920000101
步骤S232:取相似度最大的K个影视最为初步候选集;
其中,A表示用户观看影视,B表示影视库中的影视,Ai和Bi均为密集矩阵中的影视行向量。
具体地,所述用户观影行为信息处理,即步骤S3,具体包括:
步骤S31:从每个用户观影记录中提取每个影视观看时长t、观影日期d;
步骤S32:根据公式(Ⅶ)对观看时长t进行归一化处理,得到时长因子y;根据公式(Ⅷ)对观影日期d进行归一化处理,得到流行度衰减因子alpha;
y=ln(t)/max(ln(t)) (Ⅶ)
alpha=ln(d)/max(ln(d)) (Ⅷ)
步骤S33:根据公式(Ⅸ)计算每个用户已观看影视的权重W3
W3=W0(1+y+alpha/c) (Ⅸ)
其中,ln为自然对数函数,c取值为3。
具体地,所述根据用户观影行为信息建立改进的频繁项集增长模型和初步候选集得到最终候选集,即步骤S4,具备包括:
步骤S41:根据公式(Ⅹ)计算每个影视的支持度;
Figure GDA0003290421920000102
其中,s为支持度,T为所有用户已观看的影视的权重之和,σ(X∪Y)为并集,其中,σ(X)和σ(Y)分别为影片观看热门度
Figure GDA0003290421920000103
其中W为某用户观看该影片的权重,n为影片观看人数;
步骤S42:获取每个用户观看记录中的支持度大于预设值的影视;
步骤S43:对每个用户创建事务项,每个用户的事务项包括以获取的该用户的影视为节点的事务路径,每个节点的值为对应影视的权重W3,每个事务项的节点按照对应影视的支持度递减依次连接构成事务路径;
步骤S44:根据所有事务项构建改进的频繁项集增长模型,根据改进的频繁项集增长模型和初步候选集得到最终候选集。
具体地,所述根据所有事务项构建改进的频繁项集增长模型,根据改进的频繁项集增长模型得到最终候选集,即步骤S44,具体为:
步骤S441:读取第一个事务项,所述第一个事务项包括一个抬头,所述抬头连接第一个事务项的事务路径的第一个节点;
步骤S442:读取第二个事务项,判断第二个事务项的第一个节点对应的影视是否与第一个事务项的第一个节点对应的影视相同,如果相同,进行下一步,否则,将第二个事务项的第一个节点与第一个事务项的抬头连接,构成两条独立的事务路径;
步骤S443:将第二个事务项的第一个节点与第一个事务项的第一个节点合并,合并后的节点值为第二个事务项的第一个节点与第一个事务项的第一个节点的节点值之和;
步骤S444:判断第二个事务项的第二个节点对应的影视是否与第一个事务项的第二个节点对应的影视相同,如果相同,进行下一步,否则,第二个事务项的第二节点与合并后的第一节点连接,并与第二个事务项的其余节点构成一条独立的事务路径;
步骤S445:将第二个事务项的第二个节点与第一个事务项的第二个节点合并,合并后的节点值为第二个事务项的第二个节点与第一个事务项的第二个节点的节点值之和;
步骤S446:判断第二个事务项的第三个节点对应的影视是否与第一个事务项的第三个节点对应的影视相同,以此类推,直到将第二个事务项完整加入到第一事务项;
步骤S447:以此类推,依次加入剩下的事务项,构成改进的频繁项集增长模型;
步骤S448:根据公式(Ⅺ)和公式(Ⅻ)分别计算每个影视的置信度和提升度;
Figure GDA0003290421920000121
Figure GDA0003290421920000122
其中,c为置信度,f为提升度;
步骤S449:对改进的频繁项集增长模型传入置信度和提升度,得到改进的频繁项集增长模型推荐结果,并与初步候选集进行匹配,将共同地推荐影视作为最终候选集。
对于步骤S449需要说明的是,如果得到的最终候选集不足推荐部数,或者出现无结果的情况,则按照SVD模块推荐的候选集排序后补齐推荐结果。
这里举例说明如何构建改进的频繁项集增长模型,取支持度大于某预设值的影视a、b、c、d和e,以用户1、用户2、用户3和用户4为例进行模型构建。
用户1:观看记录中包括影视a和b,影视a和b的权重分别为1.5和1.2;
用户2:观看记录中包括影视a、c和d,影视a、c和d的权重分别为1、0.8和0.8;
用户3:观看记录中包括影视a、c、d和e,影视a、c、d和e的权重分别为1、1.1、0.9和0.6;
用户4:观看记录中包括影视a、b和c,影视a、b和c的权重分别为1.3、1.3和1.3。
如图2所示,为用户1的事务项;
如图3所示,在用户1的事务项基础上加入用户2的事务项,由于这两个事务项没有共同的前缀(用户1的事务项前缀为影视a,用户2的事务项前缀为影视b),因此,用户1的事务项和用户2的事务项构成两条独立的事务路径;
如图4所示,为在图3的基础上加入用户3的事务项,由于用户3的事务项前缀与用户1的事务项前缀相同,将用户3的事务项的第一个节点与用户1的事务项的第一个节点合并,并将两个节点的权重值相加,而用户3的事务项的第二个节点对应的影视与用户1的事务项的第二个节点对应的影视不相同,因此,用户3的事务项的剩余节点构成一条独立的事务路径;
如图5所示,在图4的基础上加入用户4的事务项,用户4的事务项的第一个节点和第二个节点对应的影视分别与用户1的事务项的第一个节点和第二个节点对应的影视相同,因此,将两个节点分别对应合并,用户4的事务项的第三个节点与合并后的两个节点一起构成新的独立事务路径。
图5即为构建好的改进的频繁项集增长模型。
根据图5可得,用户看了影视e再看影视a的概率为0.9/0.6(置信度),用户看了影视b再看影视a的概率为2.5/3.8(置信度),(2.5/3.5)/(1.3/1.1)=0.6为提升度(含有b的条件下同时含有a的可能性与没有b这个条件下项集中含有a的可能性之比)。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.基于机器学习的相似影视推荐方法,其特征在于,包括:
影视信息预处理,获取影视维度标签及影视维度标签中每个搜索词对应的标签权重W2
根据预处理信息建立奇异值分解模型并得到初步候选集,包括:根据每个影视维度标签中每个搜索词对应的标签权重W2得到稀疏矩阵,并将所述稀疏矩阵分布式储存;通过奇异值分解算法对稀疏矩阵进行降维,得到密集矩阵;根据密集矩阵,通过余弦相似性原理获取相似影视,得到初步候选集;
用户观影行为信息处理,其中,用户观影行为信息包括影视观看时长t、观影日期d;
根据公式(Ⅹ)计算每个影视的支持度;
Figure DEST_PATH_IMAGE001
(Ⅹ),其中,X为影片X,Y为影片Y,s为支持度,T为所有用户已观看的影视的权重之和,
Figure DEST_PATH_IMAGE003
为并集,其中,
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE007
分别为影片观看热门度
Figure DEST_PATH_IMAGE009
, W为某用户观看该影片的权重,n为影片观看人数,获取每个用户观看记录中的支持度大于预设值的影视;对每个用户创建事务项,每个用户的事务项包括以获取的该用户的影视为节点的事务路径,每个节点的值为对应影视的权重W3,每个事务项的节点按照对应影视的支持度递减依次连接构成事务路径;根据所有事务项构建改进的频繁项集增长模型,根据改进的频繁项集增长模型和初步候选集得到最终候选集,其中,改进的频繁项集增长模型为FP-Growth模型。
2.根据权利要求1所述的基于机器学习的相似影视推荐方法,其特征在于,所述影视信息预处理具体包括:
提取影视维度标签,对每个维度下的标签赋予基础权重W0
计算所有用户中每个最关注维度标签的占比p,其中,最关注维度标签为用户观影记录中包含最多影视数量的标签隶属的维度或者大于影视阈值的标签;
根据公式(Ⅰ)调整每个最关注维度标签的基础权重,得到每个最关注维度标签下所有标签的初步权重W1
W1=W0(1+ap) (Ⅰ)
提取用户搜索词记录,得到每个搜索词的搜索频次的归一化处理结果值p1
根据标签的初步权重,通过公式(Ⅱ)得到每个搜索词对应的标签权重W2
W2=W1(1+a1p1) (Ⅱ)
其中,a和a1均为算法超参数。
3.根据权利要求2所述的基于机器学习的相似影视推荐方法,其特征在于,所述计算所有用户中每个最关注维度标签的占比p具备包括:
统计每个标签对应的影视数量n1
根据每个用户观影记录,分别统计每个用户中每个标签对应的影视数量n2
根据公式(Ⅲ)得到每个用户中每个标签对应影视数量的占比p0
p0=n2/n1 (Ⅲ)
设置影视阈值n;
对于其中一个用户,若n2大于n,则n2对应的标签隶属维度为该用户最关注维度,若n2小于n,则p0最大时n2对应的标签隶属维度为该用户最关注维度,以此类推,得到所有用户最关注的维度;
根据所有用户最关注的维度,得到所有用户中每个最关注的维度占比p。
4.根据权利要求3所述的基于机器学习的相似影视推荐方法,其特征在于,所述提取用户搜索词记录,得到每个搜索词的搜索频次的归一化处理结果值p1具体包括:根据公式(Ⅳ)得到每个搜索词的搜索频次的归一化处理结果值p1
p1=f/max(f) (Ⅳ)
其中,f为每个搜索词的搜索频次,max(f)为所有搜索词中最大的搜索频次。
5.根据权利要求4所述的基于机器学习的相似影视推荐方法,其特征在于,所述通过奇异值分解算法对稀疏矩阵进行降维,得到密集矩阵具体包括:
通过公式(Ⅴ)对稀疏矩阵进行奇异值分解,得到对密集矩阵;
Figure DEST_PATH_IMAGE011
(Ⅴ)
其中,A为m*n的稀疏矩阵,m表示行数,与影视库中的影视数量相等,n表示列数,与所有维度标签的标签数量相等,A中每一列的元素值为维度标签中每个影视对应的同一标签的不同权重值W2;U为m*r的降维矩阵,m表示行数,与影视库中的影视数量相等,r表示列数,为预先设定的值;∑为奇异值矩阵,∑*V的转置为密集矩阵。
6.根据权利要求5所述的基于机器学习的相似影视推荐方法,其特征在于,所述根据密集矩阵,通过余弦相似性原理获取相似影视,得到初步候选集具体包括:
通过公式(Ⅵ)得到影视库中所有影视的相似度
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE015
(Ⅵ)
取相似度最大的K个影视最为初步候选集;
其中,A表示用户观看影视,B表示影视库中的影视,Ai和Bi均为密集矩阵中的影视行向量。
7.根据权利要求6所述的基于机器学习的相似影视推荐方法,其特征在于,所述用户观影行为信息处理具体包括:
从每个用户观影记录中提取每个影视观看时长t、观影日期d;
根据公式(Ⅶ)对观看时长t进行归一化处理,得到时长因子y;根据公式(Ⅷ)对观影日期d进行归一化处理,得到流行度衰减因子alpha;
y=ln(t)/max(ln(t)) (Ⅶ)
alpha=ln(d)/max(ln(d)) (Ⅷ)
根据公式(Ⅸ)计算每个用户已观看影视的权重W3
W3=W0(1+y+alpha/c) (Ⅸ)
其中,ln为自然对数函数,c取值为3。
8.根据权利要求7所述的基于机器学习的相似影视推荐方法,其特征在于,所述根据所有事务项构建改进的频繁项集增长模型,根据改进的频繁项集增长模型得到最终候选集具体为:
读取第一个事务项,所述第一个事务项包括一个抬头,所述抬头连接第一个事务项的事务路径的第一个节点;
读取第二个事务项,判断第二个事务项的第一个节点对应的影视是否与第一个事务项的第一个节点对应的影视相同,如果相同,进行下一步,否则,将第二个事务项的第一个节点与第一个事务项的抬头连接,构成两条独立的事务路径;
将第二个事务项的第一个节点与第一个事务项的第一个节点合并,合并后的节点值为第二个事务项的第一个节点与第一个事务项的第一个节点的节点值之和;
判断第二个事务项的第二个节点对应的影视是否与第一个事务项的第二个节点对应的影视相同,如果相同,进行下一步,否则,第二个事务项的第二节点与合并后的第一节点连接,并与第二个事务项的其余节点构成一条独立的事务路径;
将第二个事务项的第二个节点与第一个事务项的第二个节点合并,合并后的节点值为第二个事务项的第二个节点与第一个事务项的第二个节点的节点值之和;
判断第二个事务项的第三个节点对应的影视是否与第一个事务项的第三个节点对应的影视相同,以此类推,直到将第二个事务项完整加入到第一事务项;
以此类推,依次加入剩下的事务项,构成改进的频繁项集增长模型;
根据公式(Ⅺ)和公式(Ⅻ)分别计算每个影视的置信度和提升度;
Figure DEST_PATH_IMAGE017
(Ⅺ)
Figure DEST_PATH_IMAGE019
(Ⅻ)
其中,c为置信度,f为提升度;
对改进的频繁项集增长模型传入置信度和提升度,得到改进的频繁项集增长模型推荐结果,并与初步候选集进行匹配,将共同地推荐影视作为最终候选集。
CN201810469757.3A 2018-05-16 2018-05-16 基于机器学习的相似影视推荐方法 Active CN108717442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810469757.3A CN108717442B (zh) 2018-05-16 2018-05-16 基于机器学习的相似影视推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810469757.3A CN108717442B (zh) 2018-05-16 2018-05-16 基于机器学习的相似影视推荐方法

Publications (2)

Publication Number Publication Date
CN108717442A CN108717442A (zh) 2018-10-30
CN108717442B true CN108717442B (zh) 2021-12-03

Family

ID=63900146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810469757.3A Active CN108717442B (zh) 2018-05-16 2018-05-16 基于机器学习的相似影视推荐方法

Country Status (1)

Country Link
CN (1) CN108717442B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656653A (zh) * 2018-11-26 2019-04-19 北京字节跳动网络技术有限公司 蒙层图标显示方法及装置
CN113220931B (zh) * 2021-03-24 2023-01-03 西安交通大学 一种歌单多标签推荐方法、系统、设备和存储介质
CN114548523B (zh) * 2022-01-26 2023-11-07 深圳市傲天科技股份有限公司 用户观影信息预测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN103823823A (zh) * 2013-07-08 2014-05-28 电子科技大学 基于频繁项集挖掘算法的反规范化策略选择方法
CN104182543A (zh) * 2014-09-05 2014-12-03 上海理工大学 基于相似性传播与流行度降维的混合推荐方法
CN105354330A (zh) * 2015-11-27 2016-02-24 南京邮电大学 一种基于稀疏数据预处理的协同过滤推荐方法
CN106204153A (zh) * 2016-07-14 2016-12-07 扬州大学 一种基于属性比重相似性的两步预测Top‑N推荐算法
WO2017025605A1 (en) * 2015-08-11 2017-02-16 Piksel, Inc Metadata of partial content
CN107341242A (zh) * 2017-07-06 2017-11-10 太原理工大学 一种标签推荐方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812543B2 (en) * 2011-03-31 2014-08-19 Infosys Limited Methods and systems for mining association rules
US9058385B2 (en) * 2012-06-26 2015-06-16 Aol Inc. Systems and methods for identifying electronic content using video graphs
US8572097B1 (en) * 2013-03-15 2013-10-29 FEM, Inc. Media content discovery and character organization techniques

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN103823823A (zh) * 2013-07-08 2014-05-28 电子科技大学 基于频繁项集挖掘算法的反规范化策略选择方法
CN104182543A (zh) * 2014-09-05 2014-12-03 上海理工大学 基于相似性传播与流行度降维的混合推荐方法
WO2017025605A1 (en) * 2015-08-11 2017-02-16 Piksel, Inc Metadata of partial content
CN105354330A (zh) * 2015-11-27 2016-02-24 南京邮电大学 一种基于稀疏数据预处理的协同过滤推荐方法
CN106204153A (zh) * 2016-07-14 2016-12-07 扬州大学 一种基于属性比重相似性的两步预测Top‑N推荐算法
CN107341242A (zh) * 2017-07-06 2017-11-10 太原理工大学 一种标签推荐方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A new similarity measure for extraction information from social networks and improve the community detection and recommendation results;N. Binesh等;《2014 6th Conference on Information and Knowledge Technology (IKT)》;20150205;第146-151页 *
A Novel Fine-Grained User Trust Relation Prediction for Improving Recommendation Accuracy;S. Zhang等;《2016 International Conference on Advanced Cloud and Big Data (CBD)》;20170116;第164-171页 *
基于群体兴趣的个性化推荐候选集构建;石宇等;《数字图书馆论坛》;20170131;第51-56页 *
混合式流动放映电影推荐算法;罗叶贝等;《现代电影技术》;20170430;第40-45页 *

Also Published As

Publication number Publication date
CN108717442A (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
US11580306B2 (en) Identifying multimedia asset similarity using blended semantic and latent feature analysis
US8909626B2 (en) Determining user preference of items based on user ratings and user features
CN108717442B (zh) 基于机器学习的相似影视推荐方法
US8037080B2 (en) Recommender system utilizing collaborative filtering combining explicit and implicit feedback with both neighborhood and latent factor models
US8489515B2 (en) Social network based recommendation method and system
US7860347B2 (en) Image-based face search
US20170060870A1 (en) Video recommendation based on video titles
EP2936339A2 (en) Feature embedding in matrix factorization
Kwon et al. Personalized smart TV program recommender based on collaborative filtering and a novel similarity method
US20110188742A1 (en) Recommending user image to social network groups
US20130283303A1 (en) Apparatus and method for recommending content based on user's emotion
KR20050004812A (ko) 복수의 추천 스코어들을 사용하는 추천 시스템
CN104199896A (zh) 基于特征分类的视频相似度确定及视频推荐方法
KR20050086671A (ko) 클러스터링에 기초한 프로그램 특징을 통한 스테레오타입의프로파일의 생성
WO2009006234A2 (en) Automatic video recommendation
WO2003107669A1 (en) Method and apparatus for an adaptive stereotypical profile for recommending items representing a user's interests
EP2005366A2 (en) Forming connections between image collections
US20090123090A1 (en) Matching Advertisements to Visual Media Objects
CN111310045A (zh) 一种基于元路径的网络嵌入的电影推荐方法
US11663661B2 (en) Apparatus and method for training a similarity model used to predict similarity between items
CN111858972B (zh) 一种基于家庭知识图谱的电影推荐方法
US11528512B2 (en) Adjacent content classification and targeting
CN111488524A (zh) 一种面向注意力的语义敏感的标签推荐方法
Maddumala Big Data-Driven Feature Extraction and Clustering Based on Statistical Methods.
Chen et al. Top-N recommendation with high-dimensional side information via locality preserving projection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 610041 Tianfu Software Park Area A, 1129 Century City Road, Chengdu High-tech Zone, Sichuan Province

Applicant after: Chengdu Jimi Technology Co., Ltd.

Address before: 610041 Tianfu Software Park Area A, 1129 Century City Road, Chengdu High-tech Zone, Sichuan Province

Applicant before: CHENGDU XGIMI TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant