CN110390059A

CN110390059A - 一种基于类型相关的电影推荐算法

Info

Publication number: CN110390059A
Application number: CN201910633180.XA
Authority: CN
Inventors: 秦岭; 胡一帆
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-29

Abstract

本发明公开了一种基于类型相关的电影推荐算法。涉及推荐算法领域，基于协同过滤的电影推荐来自许多用户的评级(偏好分数)来预测给定用户的相似度得分或推荐电影的列表。由于它们仅使用用户明确给出的可用评级，因此它们的预测精度面临一定的限制，需要采用其他项目属性的工作以获得更精确的建议。类型相关方法的改进基于类型相关的推荐系统避免了与一般协同过滤方法相关的问题。但是，如果电影的类型组合的数量很大则类型相关不能准确反映。此外，如果我们可以确定类型相关的特征，那么我们可以组成可用于各种设备的高级类型相关出于这些原因，我们尝试改进现有的类型相关算法，使得推荐效果大大提高。

Description

一种基于类型相关的电影推荐算法

技术领域

本发明涉及推荐算法领域，尤其涉及一种基于协同过滤的推荐方法。

背景技术

随着互联网的高速发展，互联网已成为日常生活中的有力工具，大多数互联网用户每天都在网上搜索信息，使得电子商务网站的数量以及在线客户和产品的数量急剧增长，在线市场变得更具竞争力，因此在线商店需要有针对性的营销工具，以提高销售额，利润和客户满意度。但是，由于存在大量垃圾邮件数据和错误信息，大量数据通常是查找相关信息的障碍，因此通常必须仔细检查搜索结果以找到相关的结果。然而，这种不断增加的信息量会降低搜索结果的准确性和可靠性，这种不断增加的信息量会降低搜索结果的准确性和可靠性。针对这个问题，一些研究人员提出了推荐系统来解决这个问题。

在推荐系统中，用户无需扫描所有搜索结果。推荐系统过滤搜索结果，仅向用户显示相关结果。在Web 2.0中，推荐系统通常依赖于协同过滤方法，这是一种集体智能技术。通常，协作过滤通过使用诸如评级，位置或偏好之类的用户信息来过滤结果。由于传统的协同过滤方法基于用户信息，如果没有足够的用户信息，基于协同过滤的推荐系统可能表现不佳。

现阶段，推荐系统可以根据客户过去的历史，购买记录和兴趣为客户提供个性化建议来满足电子商务网站的这些业务目标。近年来，智能设备和社交网络的广泛使用使得电子商务站点能够收集关于用户的行为，活动或偏好的大量信息。此外，推荐技术越来越多地与其他专业领域相关联，以改善推荐系统的性能，覆盖范围和准确性。

基于协同过滤的电影推荐来自许多用户的评级(偏好分数)来预测给定用户的相似度得分或推荐电影的列表。由于它们仅使用用户明确给出的可用评级，因此它们的预测精度面临一定的限制，需要采用其他项目属性的工作以获得更精确的建议。本文提出了一种电影推荐系统的算法，该算法利用电影的类型以及电影的收视率来提高评级预测的准确性。

每部电影都有各种属性，如名字，流派，主演，导演，主题，情绪等。电影类型(动作，喜剧，浪漫等)可以分为几种方式，但通常是专家用于为电影分配流派。一般来说，人们可以在同一类型的电影中找到某些相似之处，但没有具体和量化的类型分类和作业标准。另外，电影可以具有多个相关联的类型，因此当没有明确给出该信息时，没有办法计算地确定电影的单个代表性类型。

发明内容

本文提出的算法使用额定电影分数计算类型之间的相关性，并基于计算的类型相关性执行电影的分类和目标用户的推荐电影列表的预测。

所提出的算法具有预处理过程，该预处理过程使用评级分数测量电影类型之间的相关性，并使用测量的相关性将电影分类为单个类型群集。当推荐事件发生时(即，用户请求电影推荐)，所提出的算法计算目标用户偏好的类型，识别属于目标用户的优选类型及其类似类型的电影(即，与...高度相关的类型。目标用户的首选类型)，并创建由识别的电影组成的推荐列表。最后，所提出的算法预测列表中电影的评级并将其推荐给目标用户。

首先是类型相关测量，电影的类型通常由专家的主观判断分配，并且很难量化类型分配的标准。所提出的算法使用电影的评分分数来计算电影类型之间的相关性。表达为genre_corr(a，b)的类型a和b之间的相关性使用下面的公式计算。

Genre_corr(a，b)＝ω×genre_prob(a，b)+(1-ω)×genre_weight(a，b) (1)

注意在(1)中，由genre_prob(a，b)表示的类型概率和类型权重由 genre_weight(a，b)表示，同样有助于genre_corr(a，b)。genre_corr是电影类型之间的相关性。由于genre_corr(a，b)和genre_corr(b，a)可能不同，相关矩阵是不对称的。它是使用genre_weight和genre_prob。genre_weight 是使用Pearson相关系数计算的权重矩阵是对称的。genre_prob是电影的共现概率流派。概率矩阵是不对称的。在(1)，计算以相同的比率(ω＝0.5)反映genre_weight和genre_prob的每个特征。作为结果，相关矩阵是不对称的。

流派概率计算，动作片爱好者对冒险电影的兴趣不一定等同于冒险电影爱好者对动作电影的兴趣。因此，之间的相关性类型需要不对称地计算[4，5]。在提出的算法中，有条件的概率用于计算类型概率。

Genre_weight(a，b)＝P(b|a)＝P(a∩b)/P(a)＝|Ia∩b|/|I_a| (2)

其中Ia是属于流派a的电影集，而Ia∩b是属于的电影集流派a和b。

体裁重量，类型权重方程是Pearson相关系数的变体，用于计算评级属于流派a和b的电影的相关性。在下面的等式中，pnt_i(a，b)表示电影I，s*i的罚分表示评价电影i的用户给出的评分集合sa是属于a类型的电影的平均评分。

Genre_weight(a，b)＝∑_i∈Ia∩bpnt_i(a，b)(s_*，i-s_a)×pnt_i(a，b)(s_*，i-s_b)/√∑_i∈Ia∩b(pnt_i(a，b)(s_*，i-s_a))²√∑_i∈a∩b(pnt_i(a，b)(s_*，i-s_b)² (7)

如前所述，可以有多个类型与单个电影相关联。该与电影相关的类型数量越小，相关性越高相关类型是。因此，pnt_i根据类型的数量而不同地给出哪部电影属于哪一部。类型权重方程有两种目标类型(类型a和b)，所以pnt_i公式的分子是2，分母是其中的类型数我属于的电影。Gi是我所属的电影类型集。

Pnt_i(a，b)＝2/|G_i| (8)

s_u，i表示电影i的偏见删除评级。它是通过减去用户偏差来计算的，电影偏见，以及用户u[1，8]给出的电影评级中所有评级的平均值。S_u，i是公式中的一个元素，用于计算电影类型之间的相关性。

S_u，i＝r_u，i-μ-b_u-b_i (9)

由S_ga表示的类型a的平均等级是通过减去对类型a(b*)中的电影评级的用户的平均偏差，类型a(b_a)中的电影的平均偏差以及所有评级的平均值来计算的。 (μ)来自流派a(r_a)中电影的平均评分。S_a对应于Pearson相关系数中的平均评级元素，即基于用户的CF中用户的平均评级和迭代CF中项目的平均评级 [5，10]。使用s_a和s_u，i计算类型之间的相关性。b*是对流派a中的电影进行评级的用户的平均偏见。

S_a＝r_a-μ-b*-b_a (10)

电影分类，使用相关联的电影类型和类型相关来执行电影的分类。在MovieLens100k数据集中，识别出18种类型，因此18×18矩阵创建。请注意，数据集中包含“未知”类型的电影被排除在外。流派将每部电影相关联以将电影分类为单个对应的类相关分数最高的矩阵。在MovieLens 10M数据集中，所提出的算法计算出7的相关性类型，如下面的矩阵所示。假设三部电影i₁，i₂和i₃被分类使用这些类型相关性。矩阵行代表电影的类型和列表示用户首选的电影类型(表1)。

表1：计算出的几种类型相关性的示例

要对电影i1进行分类，它属于行动，冒险和犯罪的案件数量识别，并比较所识别的类型对的相关值。电影i1是被分类为具有最高相关值的一对类型(矩阵中的类)。注意，当电影属于时，不考虑两个相同类型的相关性不止一种类型。七种电影类型由g1(动作)，g2(冒险)，g3(动画)，g4表示(儿童)， g5(喜剧)，g6(犯罪)和g7(纪录片)。如上表所示，电影i1属于三种不同的类型。一旦成对排除相同类型，有6种可能的情况。在6例中，g1，g2具有最高相关值。因此，电影i1被分类为g1，g2类。同样，电影i2被分类为具有最高相关性得分的g4，g3类。电影i3属于a单一类型因此它被分类为g7，g7类。

电影推荐，在执行之前中描述的预处理过程之后，建议algorithm执行生成推荐列表的电影推荐过程电影并预测列表中电影的收视率。如果目标用户喜欢流派g1，则推荐的流派按g1，g2的顺序选择，g6，g5，g4和g3以及属于所选类型的电影都包含在推荐中名单。例如，如果目标用户的一个喜欢的类型 (g1)和两个相似的类型(g1，g2)是选择，移动分类为cg1；建议目标用户使用g1和cg1；g2。创建推荐电影列表，使用目标用户给出的评级，识别的18种类型的评级频率计算，并选择前N个频繁评级的类型作为目标用户的首选类型。这里，N在下面的等式中等同于UPGC。目标用户的电影类似于目标用户的首选流派的首选流派和流派包括在电影中目标用户的推荐列表。相似类型的数量由 SGC表示。该使用基于项目的CF算法预测推荐列表中的电影的评级和基于用户的CF算法。

RecommendedListu＝UPGC∪upg∈UPG_uSGC∪sg∈SG_upgCupg，sg

电影评级的预测，使用基于用户的经典预测推荐列表中的电影的评级和基于项目的CF算法。在基于用户的CF中，偏好预测方程用于预测目标用户将给予推荐的评级(偏好分数)电影。在基于项目的CF中，加权和方程用于执行电影评级预测。

类型相关方法的改进基于类型相关的推荐系统避免了与一般协同过滤方法相关的问题。但是，如果电影的类型组合的数量很大则类型相关不能准确反映。此外，如果我们可以确定类型相关的特征，那么我们可以组成可用于各种设备的高级类型相关。出于这些原因，我们尝试改进现有的类型相关算法。

用户偏好的类型：G1，G3，G5

类型组合电影A：G1，G5

当类型相关应用于平均评级时，先前基于推荐的系统中的步骤是有问题的。

如果电影有多种类型，则结果可能不精确。方程的目的(3)选择在用户的首选类型和每部电影的流派组合之间显示高度相关性的电影。然而，例如，偏好类型的数量是三个并且电影类型的数量是两个的情况。在这种情况下，首先将G1和G1之间的类型相关应用于电影的平均评级，然后将G1和G5之间的类型相关应用于电影的平均评级。接下来，添加这些评级。但是，Eq。(3)不分此金额。如果不使用电影类型的数量来划分该总和，则总和值远高于电影类型的数量。因此，随着电影类型数量的增加，推荐点将增加。换句话说，强烈推荐与用户的首选类型不强相关的电影。因此，我们提出以下等式：

R_p1＝∑_i∈up∑_j∈mg(r_i＝j+(r_i≠j/|mg|-1))*M_μ (4)

R_p2＝∑_i∈up∑_j∈mgr_i≠j/|up|*|mg|*M_μ (5)

方程(4)和(5)解决了使用方程(3)时可能发生的潜在问题。如果电影的所选标准类型是用户的首选类型之一，则Eq(4)使用。否则，Eq(5)使用。Eqs 之间的区别(4)和(5)是标准类型和类型组合集中存在相同类型。在Eqs(4)和(5)，up表示用户首选类型的集合，而mg表示特定电影的类型组合。当类型 i等于类型j时，r_i＝j是类型相关。因此，r_i＝j的值是1。当流派i不等于时， r_i-j是流派相关类型j。

如果等式(3)用于计算推荐点，电影拥有大量流派可能比电影的得分要低

少数类型因为推荐指向一个电影除以每部电影的流派数量。对于例如，假设电影A具有G1的类型组合，G2和电影B具有G1，G2，G3和G4的类型组合这两部电影的平均收视率是一样的。然后，如果用户输入G1和G2作为首选类型，电影A将接收比电影B更高的推荐。我们开发了(4)和(5)解决这个问题。如果一部电影的流派重合使用用户的首选类型，然后我们保留该值。我们只划分两种不同类型之间的相关值。如果我们将修改后的等式应用于前面的例子，电影B 将获得比电影A更多的推荐点，因为电影B的类型属于用户喜欢的类型。图3显示了如何使用计算推荐点公式。(4)和(5)在图3中，用户的首选类型是G1， G3，和G6，电影A的类型组合是G1和G5。什么时候标准类型被选为G1，Eq。(4) 因为电影A而被使用属于G1类型。对于另外两种情况(2和3)，Eq。(5)使用因为所选择的标准类型和电影A的类型是不同的。

高级类型的相关性，也可以使用修订版构建高级类型相关性方程。为了改善类型相关性，我们分析了流派的特征。

有两种方法可以考虑类型相关性：

-Way1：根据类型的数量。

-Way2：根据电影制作的十年。

Way1可以揭示电影时流派相关性的变化，数据是有限的，而way2可以指示类型相关性的变化根据时期。因此，我们可以构建准确的类型基于有限数量的数据的相关性，并提供准确的对具有特定电影偏好的用户的评分几十年。

附图说明

图1将类型相关性应用于平均评级的示例

图2使用我们修订的方程式计算推荐点的示例

图3两个推荐之间的重合指数结果使用10个电影子集和电影的总集

图4不同数量的类型相关矩阵的比较电影

图5用六个不同集合构建的体裁相关矩阵的比较几十年的电影

图6十年和电影总数划分的每部电影子集的两个推荐结果之间的重合指数

图7 Ben-Hur(1959)相对推荐点的图表，当时使用了20世纪60年代之前和2000年代制作的电影

具体实施方式

我们使用了一个名为GroupLens database4的开放电影数据库。GroupLens 数据库有三个子数据库：电影数据库，用户数据库和评级数据库。表2显示了这些特征电影数据库此数据库包含所有人的ID，标题和流派组合电影在数据库中。数据库中的电影总数在这项研究的时候是10，681。表3是类型和列表

表4是用户数据库。该数据库包含ID，性别，所有用户的年龄，职业和邮政编码。表5是评级数据库。此数据库提供用户ID，电影ID和时间戳所有评级。

比较以前的方法和我们修改的方法。

表2：电影数据库

表3：类型

表4：用户数据库

表5：评级数据库

表6：通过前一种方法和我们修改后的方法推荐的十大电影

表6显示了根据推荐的前10部电影以前的方法和修改后的方法。我们输入’戏剧，浪漫’作为流派组合。使用以前的方法，如果一部电影的流派比其他电影更多，那么这部电影就会得到比其他电影更多的点数，如果这些平均评级电影是一样的。使用修改后的方法，进行类型相关平均值以避免虚假结果。结果如表6所示。特技人，(1980)获得最高分使用上一个方法时，所有电影中的得分(这部电影的类型组合是’动作，冒险，喜剧，浪漫，惊悚片’)。表6的右侧显示了结果使用修订后的方法获得。被遗忘的祖先的阴影(1964年)是修订后最受推荐的电影方法。这部电影的类型组合恰好是与输入流派组合’戏剧，浪漫’相同。城市的灯光(1931年)是根据修改后的方法用的第四部电影“喜剧，戏剧，浪漫”的流派组合。结果表明“喜剧”类型与流派高度相关’戏剧’和’浪漫’(见表1)。因此，城市之光(1931)是一个有效的建议。下面结合附图对本发明实施例进行详细描述。

不同数量电影的相关矩阵比较，比较不同数字的推荐结果在电影中，我们使用了14个包含不同数字的电影子集电影：100，200，500，1000，2000，3000，...， 9000，10,000和10681。我们每次构建类型相关矩阵100次子集。因为同一组电影具有相同的相关性矩阵，我们使用随机选择的电影集。因为有在14个子集中，我们构造了1400次相关矩阵。结果如图3和4所示。图3和4显示的图表有两个y轴，一个y轴表示相关系数，另一个表示相关系数轴显示标准偏差。我们省略了值来自这些数字的100，200，500和10，681部电影可以更好地呈现。

为了计算电影之间的相关性，我们首先从总集中提取子集。接下来，我们计算了相关性使用Pearson在总集和每个子集之间相关系数。

R＝∑|G_n|i＝1P_xiyi/|G_n| (6)

注意方程式中的R(6)是平均相关系数。我们重复这100次，得到平均相关系数对于每个子集。图4中的直方图显示了标准偏差为100相关系数。标准差为1000电影子集略低于0.01。对于另一个子集，标准偏差远低于0.01。该直方图显示1000到2000部电影之间的急剧下降。相关系数显示出与标准相反的模式偏差。相关系数急剧增加1000到2000部电影之间。

然后，我们将之前提出的算法应用于电影子集，以验证算法的有用性。我们比较每部电影和电影的十大电影10集中的前10部电影。图3显示了巧合指数。这个数字表明当数字电影大于2000，获得了相同的结果与整部电影相比。这意味着我们可以计算与一定数量电影的流派相关性(这里，2000年)代替整套电影提供电影建议。

根据十年比较相关矩阵，我们比较了类似的每十年的相关矩阵如上所述的方式。我们比较了相关矩阵用整套电影构建。图5显示了结果比较。为方便起见，我们总结了所有1960年之前的电影进入20世纪50年代的子集。我们预计 20世纪50年代的电影子集具有更高的相关系数比图3所示，因为这个子集包含更多的电影比1960和1970年的子集。但是，图5显示了趋势流派组合随时间而变化。相关系数随着时间的推移呈现稳定增长。图6显示了结果之间的重合指数

电影的总集合和电影的每个子集划分根据十年。该实验以类似的方式进行如上所述的时尚。巧合的指数推荐的电影如图4所示。不太重合在20世纪60 年代之前制作的电影推荐电影比其他时期的电影。为了证实我们的期望，每个十年都有一个特定的类型的类型组合，我们调查了电影Ben-Hur(1959)更详细。我们计算了推荐点来自两个类型相关矩阵的Ben-Hur使用两个电影子集。第一个子集由制作的电影组成在20世纪60年代之前，第二个子集由电影组成生产于2000年代。我们输入四种类型组合，即’动作，冒险’，’戏剧，浪漫’，’动作，戏剧’和’动作，冒险，戏剧，浪漫。正如我们所料，更高的推荐Ben-Hur的积分是在我们使用这种类型时获得的在20世纪60年代之前产生的电影的相关矩阵，如图7所示。两个推荐点之间的差异当我们使用’Action，Adventure’作为输入类型组合时约为0.32。注意在表6中，区别了第二部和第十部电影的推荐点是关于0.32。因此，在这种情况下，我们可以预期等级的变化最多8个步骤。但是，建议点非常多当流派组合是’戏剧，浪漫’时类似。这个是因为这种特殊类型组合的共性整个电影史。换句话说，’戏剧，浪漫’在20世纪60年代之前是一种常见的流派组合并且仍然存在很常见。因为“戏剧，浪漫”的组合不是与一个特定时期相关，没有差异使用两个不同的计算推荐点方法(Katz &Lazarsfeld，1955)。

Claims

1.类型相关测量：

电影的类型通常由专家的主观判断分配，并且很难量化类型分配的标准。所提出的算法使用电影的评分分数来计算电影类型之间的相关性。表达为genre_corr(a，b)的类型a和b之间的相关性使用下面的公式计算。Genre_corr(a，b)＝ω×genre_prob(a，b)+(1-ω)×genre_weight(a，b) (1)

注意在(1)中，由genre_prob(a，b)表示的类型概率和类型权重由genre_weight(a，b)表示，同样有助于genre_corr(a，b)。genre_corr是电影类型之间的相关性。由于genre_corr(a，b)和genre_corr(b，a)可能不同，相关矩阵是不对称的。它是使用genre_weight和genre_prob。genre_weight是使用Pearson相关系数计算的权重矩阵是对称的。genre_prob是电影的共现概率流派。概率矩阵是不对称的。在(1)，计算以相同的比率(ω＝0.5)反映genre_weight和genre_prob的每个特征。作为结果，相关矩阵是不对称的。

2.类型概率计算：

动作片爱好者对冒险电影的兴趣不一定等同于冒险电影爱好者对动作电影的兴趣。因此，之间的相关性类型需要不对称地计算[4，5]。在提出的算法中，有条件的概率用于计算类型概率。

Genre_weight(a，b)＝P(b|a)＝P(a∩b)/P(a)＝|Ia∩b|/|I_a| (2)

其中I_a是属于流派a的电影集，而Ia∩b是属于的电影集流派a和b。

3.题材重量：

类型权重方程是Pearson相关系数的变体，用于计算评级属于流派a和b的电影的相关性。在下面的等式中，pnt_i(a，b)表示电影I，s*i的罚分表示评价电影i的用户给出的评分集合s_a是属于a类型的电影的平均评分。

Genre_weight(a，b)＝∑_i∈Ia∩bpnt_i(a，b)(s_*，i-s_a)×pnt_i(a，b)(s_*，i-s_b)/√∑_i∈Ia∩b(pnt_i(a，b)(s_*，i-s_a))²√∑_i∈a∩b(pnt_i(a，b)(s_*，i-s_b)² (3)

4.类型相关方法的改进：

R_p1＝∑_i∈up∑_j∈mg(r_i＝j+(r_i≠j/|mg|-1))*M_μ (4)

R_p2＝∑_i∈up∑_j∈mgr_i≠j/|up|*|mg|*M_μ (5)

方程(4)和(5)解决了使用方程(3)时可能发生的潜在问题。如果电影的所选标准类型是用户的首选类型之一，则Eq(4)使用。否则，Eq(5)使用。Eqs之间的区别(4)和(5)是标准类型和类型组合集中存在相同类型。在Eqs(4)和(5)，up表示用户首选类型的集合，而mg表示特定电影的类型组合。当类型i等于类型j时，ri＝j是类型相关。因此，ri＝j的值是1。当流派i不等于时，ri-j是流派相关类型j。

如果等式(3)用于计算推荐点，电影拥有大量流派可能比电影的得分要低少数类型因为推荐指向一个电影除以每部电影的流派数量。对于例如，假设电影A具有G1的类型组合，G2和电影B具有G1，G2，G3和G4的类型组合这两部电影的平均收视率是一样的。然后，如果用户输入G1和G2作为首选类型，电影A将接收比电影B更高的推荐。我们开发了(4)和(5)解决这个问题。如果一部电影的流派重合使用用户的首选类型，然后我们保留该值。我们只划分两种不同类型之间的相关值。如果我们将修改后的等式应用于前面的例子，电影B将获得比电影A更多的推荐点，因为电影B的类型属于用户喜欢的类型。图3显示了如何使用计算推荐点公式。(4)和(5)在图3中，用户的首选类型是G1，G3，和G6，电影A的类型组合是G1和G5。什么时候标准类型被选为G1，Eq。(4)因为电影A而被使用属于G1类型。对于另外两种情况(2和3)，Eq。(5)使用因为所选择的标准类型和电影A的类型是不同的。

有两种方法可以考虑类型相关性：

-Way1：根据类型的数量。

-Way2：根据电影制作的十年。