CN108959429B

CN108959429B - 一种融合视觉特征端对端训练的电影推荐的方法及系统

Info

Publication number: CN108959429B
Application number: CN201810595626.XA
Authority: CN
Inventors: 赵朋朋; 陈晓杰; 周晓方; 许佳捷
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2022-09-09
Anticipated expiration: 2038-06-11
Also published as: CN108959429A

Abstract

本申请公开了一种融合视觉特征端对端训练的电影推荐的方法，包括：接收输入的用户评分矩阵，并初始化用户特征矩阵及电影特征矩阵，然后结合视觉特征矩阵建立初始模型；利用初始模型进行端对端训练得到用户评分预测矩阵，根据该用户评分预测矩阵为各用户推荐电影。本申请将海报和关键帧等视觉特征的学习和推荐模型融合到一个统一的框架并进行端对端的训练，学习到的视觉特征不仅仅具有较高的表达能力和可分类能力，得到的用户评分预测矩阵能够充分反映用户对视觉特征的偏好，为用户推荐的电影也能够更加符合用户喜好。本申请同时还提供了一种融合视觉特征端对端训练的电影推荐的系统、服务器及计算机可读存储介质，具有上述有益效果。

Description

一种融合视觉特征端对端训练的电影推荐的方法及系统

技术领域

本申请涉及推荐领域，特别涉及一种融合视觉特征端对端训练的电影推荐的方法、系统、服务器及计算机可读存储介质。

背景技术

随着移动互联网技术不断发展，网络中的信息量以指数规律迅速扩展和增加，网络上的信息过载和信息迷航问题日益严重。为了给用户提供满意的信息和服务，推荐系统应运而生，成为了众多研究学者关注的研究领域。推荐系统通过预测用户对信息资源的喜好程度来进行信息过滤，根据用户具体需求通过协同过滤算法等技术进行个性化推荐。电影推荐系统作为推荐系统中重要的一个分支，在人们的日常生活中扮演了重要的角色。在视频网站发展伊始，视频推荐就应运而生，视频推荐根据当前热门视频及用户的个性化数据，为用户提供个性化的视频推荐，从而增加用户粘度，提高网站流量。

在推荐系统领域，数据稀疏性和冷启动是仍然存在且颇具挑战性的问题。而在电影推荐领域，一些研究工作表明在基于内容的推荐中，使用丰富的用户和电影信息来缓解这两个问题。传统的基于内容的电影推荐系统主要使用了影片属性、用户画像和电影评论等信息。然而，海报和关键帧作为影片不可或缺的一部分，却很少被有效利用起来。

因此，如何结合图片特征完成为用户推荐符合个人喜好的电影是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种融合视觉特征端对端训练的电影推荐的方法、系统、服务器及计算机可读存储介质，用于结合图片特征完成为用户推荐符合个人喜好的电影。

为解决上述技术问题，本申请提供一种融合视觉特征端对端训练的电影推荐的方法，该方法包括：

根据输入的电影图片利用卷积神经网络提取特征并建立视觉特征矩阵；

接收输入的用户评分矩阵，并初始化用户特征矩阵及电影特征矩阵，然后结合所述视觉特征矩阵建立初始模型；

利用所述初始模型对所述用户特征矩阵、所述电影特征矩阵及所述视觉特征矩阵进行端对端训练以更新模型参数，得到融合视觉特征学习的电影推荐模型，并输出用户评分预测矩阵；

根据所述用户评分预测矩阵确定各用户对各所述电影的预测评分，并为各所述用户分别推荐各所述预测评分符合预设规则的电影。

可选的，所述接收输入的用户评分矩阵，并初始化用户特征矩阵及电影特征矩阵，然后结合所述视觉特征矩阵建立初始模型，包括：

接收输入的用户评分矩阵R，并初始化用户特征矩阵U及电影特征矩阵V；

接收输入的视觉特征矩阵CNN和所述电影特征矩阵V之间的交叉矩阵W；

根据所述视觉特征矩阵CNN、所述交叉矩阵W及所述电影特征矩阵V建立公式

以计算属于电影v_j的图片p_k能描述所述电影v_j的概率P(f_jk＝1|v_j,p_k)；

根据所述概率P(f_jk＝1|v_j,p_k)、所述用户特征矩阵U、所述电影特征矩阵V及所述用户评分矩阵R建立初始模型

其中，f_jk＝1表示属于电影v_j的图片p_k；反之，若图片p_s不属于电影v_j，则f_js＝0，CNN(p_k)和CNN(p_l)分别为图片p_k和p_l的视觉特征，v_j为第j部电影，v_j为电影v_j的特征向量，L为属于电影v_j的图片总数，U为用户特征矩阵，V为电影特征矩阵，R为用户评分矩阵，Y为指标矩阵，⊙表示哈达玛乘积运算，λ₁和λ₂为正则项的系数，α为权重项，M为电影总数，

为电影v_j的图片集合。

可选的，利用所述初始模型对所述用户特征矩阵、所述电影特征矩阵及所述视觉特征矩阵进行端对端训练以更新模型参数，得到融合视觉特征学习的电影推荐模型，并输出用户评分预测矩阵，包括：

查询所述初始模型

的最大值

对应的[U₁,V₁,W₁,CNN₁]；

根据所述[U₁,V₁,W₁,CNN₁]更新所述初始模型的模型参数，得到融合视觉特征学习的电影推荐模型；

根据公式R₁＝U₁ ^TV₁计算得到用户评分预测矩阵R₁。

利用公式

评估P(f_jk＝1|v_j,p_k)；

通过在

上对U求偏导

以更新用户特征矩阵U；

通过在

上对V求偏导

更新电影特征矩阵V；

通过在

上对W求偏导

更新交叉矩阵W；

通过在

上对θ求偏导

微调CNN特征；

利用更新后的所述用户特征矩阵U、所述电影特征矩阵V、所述交叉矩阵W及微调后的CNN特征更新所述初始模型的模型参数，得到融合视觉特征学习的电影推荐模型；

根据公式R₁＝U^TV计算得到用户评分预测矩阵R₁；

其中，p_kt为负样本，t＝1,…,J，J为对每张图片p_kt选取的负样本的个数，θ为CNN中可调参的权重集合，CNN(p_k)_h表示CNN(p_k)中第h层的特征向量。可选的，根据所述用户评分预测矩阵确定各用户对各所述电影的预测评分，并为各所述用户分别推荐各所述预测评分符合预设规则的电影，包括：

根据所述用户评分预测矩阵R₁确定用户u_i对各所述电影的预测评分；

依据各所述预测评分降序排列各所述电影；

将排名靠前的预设数目的电影推荐给所述用户u_i。

本申请还提供一种融合视觉特征端对端训练的电影推荐的系统，该系统包括：

视觉特征矩阵建立模块，用于根据输入的电影图片利用卷积神经网络提取特征并建立视觉特征矩阵；

初始模型建立模块，用于接收输入的用户评分矩阵，并初始化用户特征矩阵及电影特征矩阵，然后结合所述视觉特征矩阵建立初始模型；

训练及输出模块，用于利用所述初始模型对所述用户特征矩阵、所述电影特征矩阵及所述视觉特征矩阵进行端对端训练以更新模型参数，得到融合视觉特征学习的电影推荐模型，并输出用户评分预测矩阵；

确定及推荐模块，用于根据所述用户评分预测矩阵确定各用户对各所述电影的预测评分，并为各所述用户分别推荐各所述预测评分符合预设规则的电影。

可选的，所述初始模型建立模块包括：

初始化子模块，用于接收输入的用户评分矩阵R，并初始化用户特征矩阵U及电影特征矩阵V；

接收子模块，用于接收输入的视觉特征矩阵CNN和所述电影特征矩阵V之间的交叉矩阵W；

第一建立子模块，用于根据所述视觉特征矩阵CNN、所述交叉矩阵W及所述电影特征矩阵V建立公式

第二建立子模块，用于根据所述概率P(f_jk＝1|v_j,p_k)、所述用户特征矩阵U、所述电影特征矩阵V及所述用户评分矩阵R建立初始模型

其中，CNN(p_k)和CNN(p_l)分别为图片p_k和p_l的视觉特征，v_j为第j部电影，v_j为电影v_j的特征向量，L为属于电影v_j的图片总数，U为用户特征矩阵，V为电影特征矩阵，R为用户评分矩阵，Y为指标矩阵，⊙表示哈达玛乘积运算，λ₁和λ₂为正则项的系数，α为权重项，M为电影总数，

为电影v_j的图片集合。

可选的，所述训练及输出模块包括：

查询子模块，用于查询所述初始模型

的最大值

对应的[U₁,V₁,W₁,CNN₁]；

第一模型更新子模块，用于根据所述[U₁,V₁,W₁,CNN₁]更新所述初始模型的模型参数，得到融合视觉特征学习的电影推荐模型；

第一计算子模块，用于根据公式R₁＝U₁ ^TV₁计算得到用户评分预测矩阵R₁。

本申请还提供一种融合视觉特征端对端训练的电影推荐的服务器，该服务器包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述融合视觉特征端对端训练的电影推荐的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述融合视觉特征端对端训练的电影推荐的方法的步骤。

本申请所提供的一种融合视觉特征端对端训练的电影推荐的方法，通过根据输入的电影图片利用卷积神经网络提取特征并建立视觉特征矩阵；接收输入的用户评分矩阵，并初始化用户特征矩阵及电影特征矩阵，然后结合视觉特征矩阵建立初始模型；利用初始模型对用户特征矩阵、电影特征矩阵及视觉特征矩阵进行端对端训练以更新模型参数，得到融合视觉特征学习的电影推荐模型，并输出用户评分预测矩阵；根据用户评分预测矩阵确定各用户对各电影的预测评分，并为各用户分别推荐各预测评分符合预设规则的电影。

本申请所提供的技术方案，通过根据输入的电影图片利用卷积神经网络提取特征并建立视觉特征矩阵，并结合输入的用户评分矩阵、初始化后的用户特征矩阵及电影特征矩阵建立初始模型，再利用初始模型对用户特征矩阵、电影特征矩阵及视觉特征矩阵进行端对端训练以更新模型参数，得到融合视觉特征学习的电影推荐模型，充分的利用了影片的海报和关键帧中蕴含的大量信息，本申请将电影海报和关键帧等视觉特征的学习和推荐模型融合到一个统一的框架并进行端对端的训练，其实质是让视觉特征服务于推荐模型而不是单纯的分类任务，这样学习到的视觉特征不仅仅具有较高的表达能力和可分类能力，更重要的是得到的用户评分预测矩阵能够充分反映用户对视觉特征的偏好，根据用户评分预测矩阵为用户推荐的电影能够更加符合用户喜好。本申请同时还提供了一种融合视觉特征端对端训练的电影推荐的系统、服务器及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种融合视觉特征端对端训练的电影推荐的方法的流程图；

图2为图1所提供的一种融合视觉特征端对端训练的电影推荐的方法中S102的一种实际表现方式的流程图；

图3为VGG16的模型结构图；

图4为图1所提供的一种融合视觉特征端对端训练的电影推荐的方法中S103的一种实际表现方式的流程图；

图5为本申请实施例提供一种融合视觉特征端对端训练的框架示意图；

图6为本申请实施例所提供的一种融合视觉特征端对端训练的电影推荐的系统的结构图；

图7为本申请实施例所提供的另一种融合视觉特征端对端训练的电影推荐的系统的结构图；

图8为本申请实施例所提供的一种融合视觉特征端对端训练的电影推荐服务器的结构图。

具体实施方式

本申请的核心是提供一种融合视觉特征端对端训练的电影推荐的方法、系统、服务器及计算机可读存储介质，用于结合图片特征完成为用户推荐符合个人喜好的电影。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种融合视觉特征端对端训练的电影推荐的方法的流程图。

其具体包括如下步骤：

S101：根据输入的电影图片利用卷积神经网络提取特征并建立视觉特征矩阵；

传统的基于内容的电影推荐系统主要使用了影片属性、用户画像和电影评论等信息，而海报和关键帧作为影片不可或缺的一部分，却很少被有效利用起来，近年来，深度学习在图像处理、自然语言处理等领域取得突破性的进展，为推荐系统的研究带来了新的机遇。有研究工作将影片的海报考虑在内，通过卷积神经网络模型抽取海报等图片的视觉特征，通过结合视觉特征对电影进行相似度计算，进而得出用户对电影偏好得分。然而，海报等图片的视觉特征抽取与推荐模型的参数训练是分离的，导致推荐模型中使用的图片等视觉特征是针对分类任务而非针对推荐任务，因此本申请提供了一种融合视觉特征端对端训练的电影推荐的方法，用于结合图片特征完成为用户推荐符合个人喜好的电影；

本申请利用卷积神经网络获取接收的电影图片中的视觉特征，并建立视觉特征矩阵，充分的利用了影片的海报和关键帧中蕴含的大量信息，其中提到的电影图片具体可以为电影海报或电影中的关键帧；

S102：接收输入的用户评分矩阵，并初始化用户特征矩阵及电影特征矩阵，然后结合视觉特征矩阵建立初始模型；

本申请通过将电影海报和关键帧等视觉特征学习和推荐模型融合到一个统一的框架，能够让视觉特征服务于推荐模型而不是单纯的分类任务，这样学习到的视觉特征不仅仅具有较高的表达能力和可分类能力，更重要的是得到的用户评分预测矩阵能够充分反映用户对视觉特征的偏好；

可选的，请参考图2，图2为图1所提供的一种融合视觉特征端对端训练的电影推荐的方法中S102的一种实际表现方式的流程图，其具体可以包括以下步骤：

S201：接收输入的用户评分矩阵R，并初始化用户特征矩阵U及电影特征矩阵V；

S202：接收输入的视觉特征矩阵CNN和电影特征矩阵V之间的交叉矩阵W；

本申请实施例考虑的电影视觉内容主要包括影片的海报和关键帧，首先给出N个用户u₁,u₂,...,u_i,...,u_N，分别将其收录到集合

可表示为

同样将M部电影收录到电影集合

可表示为

每部电影v_j都有其海报和关键帧，将这些图片统一放在集合

中，其中L是所有图片的总数。使用集合

来表示属于某部电影v_j的所有海报或关键帧图片。将每部电影中的所有图片统一放在集合

中，这样

与

之间的关系可以描述为

使用U表示用户特征矩阵，V表示电影特征矩阵，R∈R^N×M来表示用户评分矩阵，且R＝U^TV，R_ij则表示某个用户u_i在某部电影v_j上的评分，用户未看过的电影的评分设为初始值，具体可以为0，u_i表示用户的特征向量，v_j表示电影的特征向量。根据如上定义，本申请建立的模型所研究的问题可以归结为：当给定N个用户和M部电影时，利用视觉特征矩阵CNN及用户评分矩阵R预测用户对未看过的电影的评分，并根据预测评分推荐相应的电影给该用户；

这里提到的W∈R^K×D，表示视觉特征和电影特征之间的交叉矩阵，D是视觉特征的维度。

S203：根据视觉特征矩阵CNN、交叉矩阵W及电影特征矩阵V建立公式

以计算属于电影v_j的图片p_k能描述电影v_j的概率P(f_jk＝1|v_j,p_k)；

首先，给定一张图片p_k，当p_k与电影v_j相关时，则p_k中包含的视觉特征有较大概率可以用来描述电影v_j，相反，当给出一张与电影v_j不相关的图片p_s，则p_s中包含的视觉内容可以用来描述电影v_j的概率就很小，为了赋予能较好描述v_j的图片更大的概率，同时希望那些不能很好描述v_j的图片的概率越小越好，因为指数函数的分布特点符合这样的规律，所以这里采用指数函数来描述图片p_k能描述电影v_j的概率P(f_jk＝1|v_j,p_k)：

其中，CNN(p_k)和CNN(p_l)分别为图片p_k和p_l的视觉特征，v_j为第j部电影，v_j为电影v_j的特征向量，L为属于电影v_j的图片总数，U为用户特征矩阵，V为电影特征矩阵；

根据以上分析，f_jk＝1表示属于电影v_j的图片p_k；反之，若图片p_s不属于电影v_j，则f_js＝0，在这里，本申请实施例在衡量图片描述这部电影的概率程度时只考虑属于电影v_j的图片p_k，而将不属于这部电影的图片的能描述电影v_j的概率均视为0。

S204：根据概率P(f_jk＝1|v_j,p_k)、用户特征矩阵U、电影特征矩阵V及用户评分矩阵R建立初始模型

基于步骤S203中得到的概率P(f_jk＝1|v_j,p_k)，通过似然函数

来衡量图片等视觉特征对电影描述能力的程度；

其中

表示属于所有电影的图片集合，这里假设交叉矩阵W服从高斯分布，那么其概率密度函数可以写为

其中

表示观测噪声的方差，进一步，通过模拟评分数据和视觉特征，结合概率矩阵分解得到的后验概率函数，为方便计算对其取对数操作，得到融合视觉特征学习的电影推荐模型的目标函数

其中后验概率函数

可以进一步表示为

则对

进行变换得到

其中，Y为指标矩阵，当R_ij＞0时，则Y_ij＝1；反之，则Y_ij＝0，⊙表示哈达玛乘积运算，λ₁和λ₂为正则项的系数，α为权重项，M为电影总数，

为电影v_j的图片集合；

可选的，为了防止过拟合，还可以对U和V进行约束，本申请将λ₁和λ₂分别设为

以防止出现过拟合现象；

本申请实施例通过假设交叉矩阵W服从高斯分布，使得视觉特征与概率矩阵分解模型中的电影特征以及用户特征关联起来，以达到视觉特征在VGG16中的训练可以传播到概率矩阵分解模型中，从而实现端对端的训练过程，将视觉特征的学习和推荐模型融合到统一的框架模型并进行端对端训练，在视觉特征与评分矩阵之间搭建了桥梁；

如图3所示，这里提到的VGG16为一种VGGNet模型，VGGNet是牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究院一起研发的深度卷积神经网络，VGGNet探索了卷积神经网络的深度预期性能之间的关系，通过反复堆叠3×3的小型卷积核和2×2的最大池化层，VGGNet成功地构筑了16-19层深的卷积神经网络，VGGNet相比之前state-of-the-art的网络结构，错误率大幅下降，并且其拓展性很强，迁移到其他图片数据上的泛化性非常好，VGGNet的结构非常简洁，整个网络都使用了同样大小的卷积核尺寸和最大池化尺寸。

S103：利用初始模型对用户特征矩阵、电影特征矩阵及视觉特征矩阵进行端对端训练以更新模型参数，得到融合视觉特征学习的电影推荐模型，并输出用户评分预测矩阵；

可选的，这里提到的利用初始模型对用户特征矩阵、电影特征矩阵及视觉特征矩阵进行端对端训练以更新模型参数，得到融合视觉特征学习的电影推荐模型，并输出用户评分预测矩阵，具体可以为：

查询初始模型

的最大值

对应的[U₁,V₁,W₁,CNN₁]；

根据[U₁,V₁,W₁,CNN₁]更新初始模型的模型参数，得到融合视觉特征学习的电影推荐模型；

根据公式R₁＝U₁ ^TV₁计算得到用户评分预测矩阵R₁。

S104：根据用户评分预测矩阵确定各用户对各电影的预测评分，并为各用户分别推荐各预测评分符合预设规则的电影。

基于上述技术方案，本申请所提供的一种融合视觉特征端对端训练的电影推荐的方法，通过根据输入的电影图片利用卷积神经网络提取特征并建立视觉特征矩阵，并结合输入的用户评分矩阵、初始化后的用户特征矩阵及电影特征矩阵建立初始模型，再利用初始模型对用户特征矩阵、电影特征矩阵及视觉特征矩阵进行端对端训练以更新模型参数，得到融合视觉特征学习的电影推荐模型，充分的利用了影片的海报和关键帧中蕴含的大量信息，本申请将电影海报和关键帧等视觉特征的学习和推荐模型融合到一个统一的框架并进行端对端的训练，其实质是让视觉特征服务于推荐模型而不是单纯的分类任务，这样学习到的视觉特征不仅仅具有较高的表达能力和可分类能力，更重要的是得到的用户评分预测矩阵能够充分反映用户对视觉特征的偏好，根据用户评分预测矩阵为用户推荐的电影能够更加符合用户喜好。

针对于上述实施例中的步骤S103，由于

包含了对所有图片的计算，使得时间耗费较多，因此为了加快训练速度，可以结合负采样的思想来评估log P(f_jk＝1|v_j,p_k)，下面结合图4做具体说明；

请参考图4，图4为图1所提供的一种融合视觉特征端对端训练的电影推荐的方法中S103的一种实际表现方式的流程图。

其具体包括以下步骤：

S401：利用公式

评估P(f_jk＝1|v_j,p_k)；

这里提到的p_kt是负样本，t＝1,…,J，J是对每张图片p_k选取的负样本的个数。对于每张图片

负样本的图片集可以表示为

总的来说，对于每部电影v_j中的每张图片p_k都随机产生J张图片用作负样本。可以肯定的是，这些负样本图片不属于v_j。我们尝试最大化电影特征向量v_j与其图片p_k视觉特征向量之间的相似度，然后最小化电影特征向量v_j与负样本图片p_kt视觉特征向量之间的相似度。通过负采样的方法，这些梯度的计算能够被简化。

S402：通过在

上对U求偏导

以更新用户特征矩阵U；

S403：通过在

上对V求偏导

更新电影特征矩阵V；

其中，为了简化在目标函数对V求偏导的写法，将目标函数中第三项

对V求偏导的部分用B来表示，即

B＝{b₁,...,b_j,...,b_M}∈R^K×M，

并且矩阵B中的每一列b_j可以表示为

这里进一步将b_j改写成矢量形式，其中

表示一个每一列为CNN(p_k)的矩阵，

同样，

表示一个每一列为CNN(p_ks)的矩阵，p_ks则为p_k的负样本，

S404：通过在

上对W求偏导

更新交叉矩阵W；

S405：通过在

上对θ求偏导

微调CNN特征；

其中，θ为CNN中可调参的权重集合，CNN(p_k)_h表示CNN(p_k)中第h层的特征向量；

需要说明的是，步骤S402-S405之间没有明确的顺序关系，本申请对步骤S402-S405之间的顺序关系不做具体限定；

可选的，请参考图5，图5为本申请实施例提供一种融合视觉特征端对端训练的框架示意图，图中左侧虚线框为框架的视觉特征部分，右侧虚线框为框架的概率矩阵分解部分，本申请还提供了一种融合视觉特征端对端训练的学习算法：

Algorithm 1:An Optimization Algorithm of UVMF

Require:R,

for

Ensure:the full rating matrix of user-movie

1:Initialize VGG 16by using pre-trained weights on

Imagenet

2:Initialize U,V,W with Normal distribution(0,0.01)

3:repeat

4:Update U as

5:Update V as

6:Update W as

7:fine-tune CNN using back propagation

8:until convergence；

9:return the full rating matrix of user-movie on U^TV

关于时间复杂度，在VGG16中，最耗时间的部分是卷积层和全连接层，因此，本申请专注于这两类网络层进行时间复杂度的分析。

首先，将第l个卷积层的输入色彩通道的数目设为f_l，将第l个卷积层的过滤器的数目设为n_l，将过滤器的大小设为s_l，并且将输出的特征图像的大小设为m_l。然后对每个输入更新第l个卷积层的过滤器的权重的时间复杂度为

如果锁定前

个卷积层，并且微调最后

层的权重，那么每次迭代的时间复杂度则为

这里无需将过滤器大小的平方

计算在内。在每次迭代中，更新最后两层全连接层的权重的时间复杂度分别为

和

接着专注于计算更新其他参数的时间复杂度。考虑到用户电影的评分矩阵R是非常稀疏的，更新电影特征矩阵V的时间复杂度的计算主要是对B的计算，为

其中D是CNN特征向量的维度。因为

所以每次迭代的时间复杂度为

S406：利用更新后的用户特征矩阵U、电影特征矩阵V、交叉矩阵W及微调后的CNN特征更新初始模型的模型参数，得到融合视觉特征学习的电影推荐模型；

S407：根据公式R₁＝U^TV计算得到用户评分预测矩阵R₁；

可选的，在上述实施例的基础上，步骤S104所提到的，根据用户评分预测矩阵确定各用户对各电影的预测评分，并为各用户分别推荐各预测评分符合预设规则的电影，具体可以为：

根据用户评分预测矩阵R₁确定用户u_i对各电影的预测评分；

依据各预测评分降序排列各电影；

将排名靠前的预设数目的电影推荐给用户u_i。

请参考图6，图6为本申请实施例所提供的一种融合视觉特征端对端训练的电影推荐的系统的结构图。

该系统可以包括：

视觉特征矩阵建立模块100，用于根据输入的电影图片利用卷积神经网络提取特征并建立视觉特征矩阵；

初始模型建立模块200，用于接收输入的用户评分矩阵，并初始化用户特征矩阵及电影特征矩阵，然后结合视觉特征矩阵建立初始模型；

训练及输出模块300，用于利用初始模型对用户特征矩阵、电影特征矩阵及视觉特征矩阵进行端对端训练以更新模型参数，得到融合视觉特征学习的电影推荐模型，并输出用户评分预测矩阵；

确定及推荐模块400，用于根据用户评分预测矩阵确定各用户对各电影的预测评分，并为各用户分别推荐各预测评分符合预设规则的电影。

请参考图7，图7为本申请实施例所提供的另一种融合视觉特征端对端训练的电影推荐的系统的结构图。

该电影推荐模型建立模块200可以包括：

接收子模块，用于接收输入的视觉特征矩阵CNN和电影特征矩阵V之间的交叉矩阵W；

第一建立子模块，用于根据视觉特征矩阵CNN、交叉矩阵W及电影特征矩阵V建立公式

第二建立子模块，用于根据概率P(f_jk＝1|v_j,p_k)、用户特征矩阵U、电影特征矩阵V及用户评分矩阵R建立初始模型

为电影v_j的图片集合。

该训练及输出模块300可以包括：

查询子模块，用于查询初始模型

的最大值

对应的[U₁,V₁,W₁,CNN₁]；

第一模型更新子模块，用于根据[U₁,V₁,W₁,CNN₁]更新初始模型的模型参数，得到融合视觉特征学习的电影推荐模型；

该训练及输出模块300还可以包括：

评估子模块，用于利用公式

评估P(f_jk＝1|v_j,p_k)；

第一更新子模块，用于通过在

上对U求偏导

以更新用户特征矩阵U；

第二更新子模块，用于通过在

上对V求偏导

更新电影特征矩阵V；

第三更新子模块，用于通过在

上对W求偏导

更新交叉矩阵W；

第四更新子模块，用于通过在

上对θ求偏导

微调CNN特征；

第二模型更新子模块，用于利用更新后的用户特征矩阵U、电影特征矩阵V、交叉矩阵W及微调后的CNN特征更新初始模型的模型参数，得到融合视觉特征学习的电影推荐模型；

第二计算子模块，用于根据公式R₁＝U^TV计算得到用户评分预测矩阵R₁；

其中，p_kt为负样本，t＝1,…,J，J为对每张图片p_kt选取的负样本的个数，θ为CNN中可调参的权重集合，CNN(p_k)_h表示CNN(p_k)中第h层的特征向量。

该确定及推荐模块400可以包括：

确定子模块，用于根据用户评分预测矩阵R₁确定用户u_i对各电影的预测评分；

排序子模块，用于依据各预测评分降序排列各电影；

推荐子模块，用于将排名靠前的预设数目的电影推荐给用户u_i。

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

请参考图8，图8为本申请实施例所提供的一种融合视觉特征端对端训练的电影推荐服务器的结构图。

该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)822和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对系统中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在融合视觉特征端对端训练的电影推荐服务器800上执行存储介质830中的一系列指令操作。

融合视觉特征端对端训练的电影推荐服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1至图5所描述的融合视觉特征端对端训练的电影推荐的方法中的步骤由融合视觉特征端对端训练的电影推荐的服务器基于该图8所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，系统和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、服务器和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用系统，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种融合视觉特征端对端训练的电影推荐的方法、系统、服务器及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种融合视觉特征端对端训练的电影推荐的方法，其特征在于，包括：

以计算属于电影x_j的图片p_k能描述所述电影x_j的概率P(f_jk＝1|x_j,p_k)；

根据所述概率P(f_jk＝1|x_j,p_k)、所述用户特征矩阵U、所述电影特征矩阵V及所述用户评分矩阵R建立初始模型

其中，f_jk＝1表示图片p_k属于电影x_j；反之，若图片p_k不属于电影x_j，则f_jk＝0，CNN(p_k)和CNN(p_l)分别为图片p_k和p_l的视觉特征，x_j为第j部电影，v_j为电影x_j的特征向量，L为属于电影x_j的图片总数，Y为指标矩阵，⊙表示哈达玛乘积运算，λ₁和λ₂为正则项的系数，α为权重项，M为电影总数，