CN108717442A

CN108717442A - 基于机器学习的相似影视推荐方法

Info

Publication number: CN108717442A
Application number: CN201810469757.3A
Authority: CN
Inventors: 钟波; 肖适; 刘志明; 王招辉
Original assignee: Chengdu XGIMI Technology Co Ltd
Current assignee: Chengdu XGIMI Technology Co Ltd
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2018-10-30
Anticipated expiration: 2038-05-16
Also published as: CN108717442B

Abstract

本发明公开一种基于机器学习的相似影视推荐方法，包括：影视信息预处理；根据预处理信息建立奇异值分解模型并得到初步候选集；用户观影行为信息处理；根据用户观影行为信息建立改进的频繁项集增长模型并对初步候选集重新排序，得到最终候选集。本发明在推荐过程中将用户观影行为有效结合起来，从而使推荐结果更加贴合用户需求。

Description

基于机器学习的相似影视推荐方法

技术领域

本发明涉及影视推荐领域，具体涉及一种基于机器学习的相似影视推荐方法。

背景技术

目前，视频平台基本都具有智能视频推荐系统，用户在通过视频平台查看某视频的介绍或观看某视频后，平台的智能视频推荐系统就会自动为用户推荐并呈现与用户所查看或观看的视频相关的视频，可以在避免用户手动搜索的情况下，帮助用户找到相关视频，不但方便了用户，而且增加了用户在视频网站上的停留时间。

但是现有的智能视频推荐系统大多通过搜索相关视频并确定视频之间的相似度，再根据相似度的大小向用户推荐视频，而确定视频之间的相似度时，通常采用的方法是基于视频内容来实现，具体而言即是采用影视信息特征做推荐，由于未结合用户兴趣和观影行为，存在如下缺陷：(1)关联影视推荐变化不大；(2)未考虑影视流行度随时间的变化，从而使推荐的影视与用户的需求贴合度不高。

发明内容

有鉴于此，本申请提供一种基于机器学习的相似影视推荐方法，本方法在推荐过程中将用户观影行为有效结合起来，从而使推荐结果更加贴合用户需求。本发明通过以下技术手段实现：

基于机器学习的相似影视推荐方法，包括

影视信息预处理；

根据预处理信息建立奇异值分解模型并得到初步候选集；

用户观影行为信息处理；

根据用户观影行为信息建立改进的频繁项集增长模型并对初步候选集重新排序，得到最终候选集。

进一步地，所述影视信息预处理具体包括：

提取影视维度标签，对每个维度下的标签赋予基础权重W₀；

计算所有用户中每个最关注维度标签的占比p；

根据公式(Ⅰ)调整每个最关注维度标签的基础权重，得到每个最关注维度标签下所有标签的初步权重W₁；

W₁＝W₀(1+ap) (Ⅰ)

提取用户搜索词记录，得到每个搜索词的搜索频次的归一化处理结果值p₁；

根据标签的初步权重，通过公式(Ⅱ)得到每个搜索词对应的标签权重W₂

W₂＝W₁(1+a₁p₁) (Ⅱ)

其中，a和a₁均为算法超参数。

进一步地，所述计算所有用户中每个最关注维度标签的占比p具备包括：

统计每个标签对应的影视数量n₁；

根据每个用户观影记录，分别统计每个用户中每个标签对应的影视数量n₂；

根据公式(Ⅲ)得到每个用户中每个标签对应影视数量的占比p₀；

p₀＝n₂/n₁ (Ⅲ)

设置影视阈值n；

对于其中一个用户，若n₂大于n，则n₂对应的标签隶属维度为该用户最关注维度，若n₂小于n，则p₀最大时n₂对应的标签隶属维度为该用户最关注维度，以此类推，得到所有用户最关注的维度；

根据所有用户最关注的维度，得到所有用户最关注的维度占比p。

进一步地，所述提取用户搜索词记录，得到每个搜索词的搜索频次的归一化处理结果值p₁具体包括：根据公式(Ⅳ)得到每个搜索词的搜索频次的归一化处理结果值p₁；

p₁＝f/max(f) (Ⅳ)

其中，f为每个搜索词的搜索频次，max(f)为所有搜索词中最大的搜索频次。

进一步地，所述根据预处理信息建立奇异值分解模型并得到初步候选集具体包括：

根据每个维度标签中每个搜索词对应的标签权重W₂得到稀疏矩阵，并将所述稀疏矩阵分布式储存；

通过奇异值分解算法对稀疏矩阵进行降维，得到密集矩阵；

根据密集矩阵，通过余弦相似性原理获取相似影视，得到初步候选集。

进一步地，所述通过奇异值分解算法对稀疏矩阵进行降维，得到密集矩阵具体包括：

通过公式(Ⅴ)对稀疏矩阵进行奇异值分解，得到对密集矩阵；

A_m×n＝U_m×rΣ_r×rV^T _r×n (Ⅴ)

其中，A为m*n的稀疏矩阵，m表示行数，与影视库中的影视数量相等，n表示列数，与所有维度标签的标签数量相等，A中每一列的元素值为维度标签中每个影视对应的同一标签的不同权重值W₂；U为m*r的降维矩阵，m表示行数，与影视库中的影视数量相等，r表示列数，为预先设定的值；∑为奇异值矩阵，∑*V的转置为密集矩阵。

进一步地，所述根据密集矩阵，通过余弦相似性原理获取相似影视，得到初步候选集具体包括：

通过公式(Ⅵ)得到影视库中所有影视的相似度cosθ；

取相似度最大的K个影视最为初步候选集；

其中，A表示用户观看影视，B表示影视库中的影视，A_i和B_i均为密集矩阵中的影视行向量。

进一步地，所述用户观影行为信息处理具体包括：

从每个用户观影记录中提取每个影视观看时长t、观影日期d；

根据公式(Ⅶ)对观看时长t进行归一化处理，得到时长因子y；根据公式(Ⅷ)对观影日期d进行归一化处理，得到流行度衰减因子alpha；

y＝ln(t)/max(ln(t)) (Ⅶ)

alpha＝ln(d)/max(ln(d)) (Ⅷ)

根据公式(Ⅸ)计算每个用户已观看影视的权重W₃；

W₃＝W₀(1+y+alpha/c) (Ⅸ)

其中，ln为自然对数函数，c取值为3。

进一步地，所述根据用户观影行为信息建立改进的频繁项集增长模型和初步候选集得到最终候选集具备包括：

根据公式(Ⅹ)计算每个影视的支持度；

其中，s为支持度，T为所有用户已观看的影视的权重之和，σ(X∪Y)为并集，其中，σ(X)和σ(Y)分别为影片观看热门度其中W为某用户观看该影片的权重，n为影片观看人数；

获取每个用户观看记录中的支持度大于预设值的影视；

对每个用户创建事务项，每个用户的事务项包括以获取的该用户的影视为节点的事务路径，每个节点的值为对应影视的权重W₃，每个事务项的节点按照对应影视的支持度递减依次连接构成事务路径；

根据所有事务项构建改进的频繁项集增长模型，根据改进的频繁项集增长模型和初步候选集得到最终候选集。

进一步地，所述根据所有事务项构建改进的频繁项集增长模型，根据改进的频繁项集增长模型得到最终候选集具体为：

读取第一个事务项，所述第一个事务项包括一个抬头，所述抬头连接第一个事务项的事务路径的第一个节点；

读取第二个事务项，判断第二个事务项的第一个节点对应的影视是否与第一个事务项的第一个节点对应的影视相同，如果相同，进行下一步，否则，将第二个事务项的第一个节点与第一个事务项的抬头连接，构成两条独立的事务路径；

将第二个事务项的第一个节点与第一个事务项的第一个节点合并，合并后的节点值为第二个事务项的第一个节点与第一个事务项的第一个节点的节点值之和；

判断第二个事务项的第二个节点对应的影视是否与第一个事务项的第二个节点对应的影视相同，如果相同，进行下一步，否则，第二个事务项的第二节点与合并后的第一节点连接，并与第二个事务项的其余节点构成一条独立的事务路径；

将第二个事务项的第二个节点与第一个事务项的第二个节点合并，合并后的节点值为第二个事务项的第二个节点与第一个事务项的第二个节点的节点值之和；

判断第二个事务项的第三个节点对应的影视是否与第一个事务项的第三个节点对应的影视相同，以此类推，直到将第二个事务项完整加入到第一事务项；

以此类推，依次加入剩下的事务项，构成改进的频繁项集增长模型；

根据公式(Ⅺ)和公式(Ⅻ)分别计算每个影视的置信度和提升度；

其中，c为置信度，f为提升度；

对改进的频繁项集增长模型传入置信度和提升度，得到改进的频繁项集增长模型推荐结果，并与初步候选集进行匹配，将共同地推荐影视作为最终候选集

本发明提供的基于机器学习的相似影视推荐方法在推荐过程中将用户观影行为有效结合起来，通过引入用户观影行为中的观看时长和观影日期，可以有效考虑到将用户对流行度的需求，并且本发明采用了多种机器学习算法融合技术，可以使推荐结果更加准确，也更加贴合用户需求。

附图说明

图1为本发明提供的基于机器学习的相似影视推荐方法流程图。

图2为用户1的事务项示意图。

图3为在用户1的事务项基础上加入用户2的事务项构成的示意图。

图4为在图3的基础上加入用户3的事务项构成的示意图。

图5为在图4的基础上加入用户4的事务项构成的改进的频繁项集增长模型示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步的详细说明。

实施例

如图1所示，本实施例提供一种基于机器学习的相似影视推荐方法，包括：

步骤S1：影视信息预处理；

步骤S2：根据预处理信息建立奇异值分解模型并得到初步候选集；

步骤S3：用户观影行为信息处理；

步骤S4：根据用户观影行为信息建立改进的频繁项集增长模型并对初步候选集重新排序，得到最终候选集。

这里需要说明的是，奇异值分解模型可以描述为SVD模型，改进的频繁项集增长模型可以描述为FP-Growth模型。

具体地，所述影视信息预处理，即步骤S1，具体包括：

步骤S11：提取影视维度标签，对每个维度下的标签赋予基础权重W₀；

步骤S12：计算所有用户中每个最关注维度标签的占比p；

步骤S13：根据公式(Ⅰ)调整每个最关注维度标签的基础权重，得到每个最关注维度标签下所有标签的初步权重W₁；

W₁＝W₀(1+ap) (Ⅰ)

步骤S14：提取用户搜索词记录，得到每个搜索词的搜索频次的归一化处理结果值p₁；

步骤S15：根据标签的初步权重，通过公式(Ⅱ)得到每个搜索词对应的标签权重W₂

W₂＝W₁(1+a₁p₁) (Ⅱ)

其中，a和a₁均为算法超参数。

这里需要说明的是，本实施例中，可以将每个维度标签的基础权重W₀的值设为1；a和a₁均为算法超参数，a和a₁的初始值可以设置为1，具体值可以根据实际用户观看记录进行调整。

还需要说明的是，维度标签就是指演员、导演等概括性的某一类标签，每个维度标签下包含了具体标签，如演员这一维度下的标签可以具体包括朱茵、刘德华、范冰冰等，对某个维度标签的权重进行调整就是对这个维度下所有标签权重进行调整。

对于所有用户来说，每个用户都有自己最关注的维度，把每个用户最关注的维度找出来，就可以统计出每个最关注的维度在所有最关注的维度中所占比例，即为步骤S12中所述所有用户中每个最关注维度的占比p。

具体地，所述计算所有用户最关注维度的占比p，即步骤S12，具备包括：

步骤S121：统计每个标签对应的影视数量n₁

步骤S122：根据每个用户观影记录，分别统计每个用户中每个标签对应的影视数量n₂；

步骤S123：根据公式(Ⅲ)得到每个用户中每个标签对应影视数量的占比p₀；

p₀＝n₂/n₁ (Ⅲ)

步骤S124：设置影视阈值n；

步骤S125：对于其中一个用户，若n₂大于n，则n₂对应的标签隶属维度为该用户最关注维度，若n₂小于n，则p₀最大时n₂对应的标签隶属维度为该用户最关注维度，以此类推，得到所有用户最关注的维度；

步骤S126：根据所有用户最关注的维度，得到所有用户最关注的维度占比p。

这里需要说明的是，对于步骤S121，统计每个标签对应的影视数量就是统计每个具体标签对应的影视数量，比如演员刘德华对应的影视数量，导演冯小刚对应的影视数量等，对于步骤S123的公式(Ⅲ)，n₁和n₂对应的标签是相同的。

这里需要说明的是，n₁和n₂均为变量，即不同的标签对应的影视数量n₁不同，相同的用户不同的标签对应的影视数量n₂也不同，实施本实施例时会设置影视阈值n，对于计算得到初步占比p₀后，如果n₂大于n，则可得n₂对应的标签隶属维度即为用户最关注维度，如果n₂小于n，则可得p₀最大时对应的标签隶属维度为用户最关注维度。

还需要说明的是，对于步骤S126，每个用户最关注的维度都会有一个比值，比如有100个用户，用户1—60最关注的维度为主演，用户61—90最关注的维度为主旨，用户91—100最关注的维度为重要配演，那么对于所有用户来说，最关注的维度有三个：主演、主旨和重要配演，其中，主演这一最关注的维度占比为60％，主旨这一最关注的维度占比为30％，重要配演这一最关注的维度占比为10％，根据这三个占比值，可以根据公式(Ⅰ)调整得到这三个维度标签下所有标签的权重值。当然，影视标签和用户数量在实际情况中会远远大于所举的数量，对于所有用户来说，最关注的维度也不会仅仅只有三个，这里的举例只是为了解释和理解。

具体地，所述提取用户搜索词记录，得到每个搜索词的搜索频次的归一化处理结果值p₁，即步骤S14，具体包括：根据公式(Ⅳ)得到每个搜索词的搜索频次的归一化处理结果值p₁；

p₁＝f/max(f) (Ⅳ)

具体地，所述根据预处理信息建立奇异值分解模型并得到初步候选集，即步骤S2，具体包括：

步骤S21：根据每个维度标签中每个搜索词对应的标签权重W₂得到稀疏矩阵，并将所述稀疏矩阵分布式储存；

步骤S22：通过奇异值分解算法对稀疏矩阵进行降维，得到密集矩阵；

步骤S23：根据密集矩阵，通过余弦相似性原理获取相似影视，得到初步候选集。

具体地，所述通过奇异值分解算法对稀疏矩阵进行降维，得到密集矩阵，即步骤S22，具体包括：通过公式(Ⅴ)对稀疏矩阵进行奇异值分解，得到对密集矩阵；

A_m×n＝U_m×rΣ_r×rV^T _r×n (Ⅴ)

具体地，所述根据密集矩阵，通过余弦相似性原理获取相似影视，得到初步候选集，即步骤S23，具体包括：

步骤S231：通过公式(Ⅵ)得到影视库中所有影视的相似度cosθ；

步骤S232：取相似度最大的K个影视最为初步候选集；

具体地，所述用户观影行为信息处理，即步骤S3，具体包括：

步骤S31：从每个用户观影记录中提取每个影视观看时长t、观影日期d；

步骤S32：根据公式(Ⅶ)对观看时长t进行归一化处理，得到时长因子y；根据公式(Ⅷ)对观影日期d进行归一化处理，得到流行度衰减因子alpha；

y＝ln(t)/max(ln(t)) (Ⅶ)

alpha＝ln(d)/max(ln(d)) (Ⅷ)

步骤S33：根据公式(Ⅸ)计算每个用户已观看影视的权重W₃；

W₃＝W₀(1+y+alpha/c) (Ⅸ)

其中，ln为自然对数函数，c取值为3。

具体地，所述根据用户观影行为信息建立改进的频繁项集增长模型和初步候选集得到最终候选集，即步骤S4，具备包括：

步骤S41：根据公式(Ⅹ)计算每个影视的支持度；

步骤S42：获取每个用户观看记录中的支持度大于预设值的影视；

步骤S43：对每个用户创建事务项，每个用户的事务项包括以获取的该用户的影视为节点的事务路径，每个节点的值为对应影视的权重W₃，每个事务项的节点按照对应影视的支持度递减依次连接构成事务路径；

步骤S44：根据所有事务项构建改进的频繁项集增长模型，根据改进的频繁项集增长模型和初步候选集得到最终候选集。

具体地，所述根据所有事务项构建改进的频繁项集增长模型，根据改进的频繁项集增长模型得到最终候选集，即步骤S44，具体为：

步骤S441：读取第一个事务项，所述第一个事务项包括一个抬头，所述抬头连接第一个事务项的事务路径的第一个节点；

步骤S442：读取第二个事务项，判断第二个事务项的第一个节点对应的影视是否与第一个事务项的第一个节点对应的影视相同，如果相同，进行下一步，否则，将第二个事务项的第一个节点与第一个事务项的抬头连接，构成两条独立的事务路径；

步骤S443：将第二个事务项的第一个节点与第一个事务项的第一个节点合并，合并后的节点值为第二个事务项的第一个节点与第一个事务项的第一个节点的节点值之和；

步骤S444：判断第二个事务项的第二个节点对应的影视是否与第一个事务项的第二个节点对应的影视相同，如果相同，进行下一步，否则，第二个事务项的第二节点与合并后的第一节点连接，并与第二个事务项的其余节点构成一条独立的事务路径；

步骤S445：将第二个事务项的第二个节点与第一个事务项的第二个节点合并，合并后的节点值为第二个事务项的第二个节点与第一个事务项的第二个节点的节点值之和；

步骤S446：判断第二个事务项的第三个节点对应的影视是否与第一个事务项的第三个节点对应的影视相同，以此类推，直到将第二个事务项完整加入到第一事务项；

步骤S447：以此类推，依次加入剩下的事务项，构成改进的频繁项集增长模型；

步骤S448：根据公式(Ⅺ)和公式(Ⅻ)分别计算每个影视的置信度和提升度；

其中，c为置信度，f为提升度；

步骤S449：对改进的频繁项集增长模型传入置信度和提升度，得到改进的频繁项集增长模型推荐结果，并与初步候选集进行匹配，将共同地推荐影视作为最终候选集。

对于步骤S449需要说明的是，如果得到的最终候选集不足推荐部数，或者出现无结果的情况，则按照SVD模块推荐的候选集排序后补齐推荐结果。

这里举例说明如何构建改进的频繁项集增长模型，取支持度大于某预设值的影视a、b、c、d和e，以用户1、用户2、用户3和用户4为例进行模型构建。

用户1：观看记录中包括影视a和b，影视a和b的权重分别为1.5和1.2；

用户2：观看记录中包括影视a、c和d，影视a、c和d的权重分别为1、0.8和0.8；

用户3：观看记录中包括影视a、c、d和e，影视a、c、d和e的权重分别为1、1.1、0.9和0.6；

用户4：观看记录中包括影视a、b和c，影视a、b和c的权重分别为1.3、1.3和1.3。

如图2所示，为用户1的事务项；

如图3所示，在用户1的事务项基础上加入用户2的事务项，由于这两个事务项没有共同的前缀(用户1的事务项前缀为影视a，用户2的事务项前缀为影视b)，因此，用户1的事务项和用户2的事务项构成两条独立的事务路径；

如图4所示，为在图3的基础上加入用户3的事务项，由于用户3的事务项前缀与用户1的事务项前缀相同，将用户3的事务项的第一个节点与用户1的事务项的第一个节点合并，并将两个节点的权重值相加，而用户3的事务项的第二个节点对应的影视与用户1的事务项的第二个节点对应的影视不相同，因此，用户3的事务项的剩余节点构成一条独立的事务路径；

如图5所示，在图4的基础上加入用户4的事务项，用户4的事务项的第一个节点和第二个节点对应的影视分别与用户1的事务项的第一个节点和第二个节点对应的影视相同，因此，将两个节点分别对应合并，用户4的事务项的第三个节点与合并后的两个节点一起构成新的独立事务路径。

图5即为构建好的改进的频繁项集增长模型。

根据图5可得，用户看了影视e再看影视a的概率为0.9/0.6(置信度)，用户看了影视b再看影视a的概率为2.5/3.8(置信度)，(2.5/3.5)/(1.3/1.1)＝0.6为提升度(含有b的条件下同时含有a的可能性与没有b这个条件下项集中含有a的可能性之比)。

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于机器学习的相似影视推荐方法，其特征在于，包括：

影视信息预处理；

根据预处理信息建立奇异值分解模型并得到初步候选集；

用户观影行为信息处理；

2.根据权利要求1所述的基于机器学习的相似影视推荐方法，其特征在于，所述影视信息预处理具体包括：

提取影视维度标签，对每个维度下的标签赋予基础权重W₀；

计算所有用户中每个最关注维度标签的占比p；

W₁＝W₀(1+ap) (Ⅰ)

W₂＝W₁(1+a₁p₁) (Ⅱ)

其中，a和a₁均为算法超参数。

3.根据权利要求2所述的基于机器学习的相似影视推荐方法，其特征在于，所述计算所有用户中每个最关注维度标签的占比p具备包括：

统计每个标签对应的影视数量n₁；

p₀＝n₂/n₁ (Ⅲ)

设置影视阈值n；

根据所有用户最关注的维度，得到所有用户中每个最关注的维度占比p。

4.根据权利要求3所述的基于机器学习的相似影视推荐方法，其特征在于，所述提取用户搜索词记录，得到每个搜索词的搜索频次的归一化处理结果值p₁具体包括：根据公式(Ⅳ)得到每个搜索词的搜索频次的归一化处理结果值p₁；

p₁＝f/max (f) (Ⅳ)

5.根据权利要求4所述的基于机器学习的相似影视推荐方法，其特征在于，所述根据预处理信息建立奇异值分解模型并得到初步候选集具体包括：

通过奇异值分解算法对稀疏矩阵进行降维，得到密集矩阵；

6.根据权利要求5所述的基于机器学习的相似影视推荐方法，其特征在于，所述通过奇异值分解算法对稀疏矩阵进行降维，得到密集矩阵具体包括：

A_m×n＝U_m×rΣ_r×rV^T _r×n (Ⅴ)

7.根据权利要求6所述的基于机器学习的相似影视推荐方法，其特征在于，所述根据密集矩阵，通过余弦相似性原理获取相似影视，得到初步候选集具体包括：

通过公式(Ⅵ)得到影视库中所有影视的相似度cosθ；

取相似度最大的K个影视最为初步候选集；

8.根据权利要求7所述的基于机器学习的相似影视推荐方法，其特征在于，所述用户观影行为信息处理具体包括：

y＝ln(t)/max(ln(t)) (Ⅶ)

alpha＝ln(d)/max(ln(d)) (Ⅷ)

根据公式(Ⅸ)计算每个用户已观看影视的权重W₃；

W₃＝W₀(1+y+alpha/c) (Ⅸ)

其中，ln为自然对数函数，c取值为3。

9.根据权利要求8所述的基于机器学习的相似影视推荐方法，其特征在于，所述根据用户观影行为信息建立改进的频繁项集增长模型和初步候选集得到最终候选集具备包括：

根据公式(Ⅹ)计算每个影视的支持度；

获取每个用户观看记录中的支持度大于预设值的影视；

10.根据权利要求9所述的基于机器学习的相似影视推荐方法，其特征在于，所述根据所有事务项构建改进的频繁项集增长模型，根据改进的频繁项集增长模型得到最终候选集具体为：

其中，c为置信度，f为提升度；

对改进的频繁项集增长模型传入置信度和提升度，得到改进的频繁项集增长模型推荐结果，并与初步候选集进行匹配，将共同地推荐影视作为最终候选集。