CN112203152A

CN112203152A - 多模态对抗学习型视频推荐方法和系统

Info

Publication number: CN112203152A
Application number: CN202011366949.5A
Authority: CN
Inventors: 李广丽; 卓建武; 李传秀; 滑瑾; 袁天; 张红斌
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-01-08
Anticipated expiration: 2040-11-30
Also published as: CN112203152B

Abstract

本发明涉及计算机、人工智能领域，提供了一种多模态对抗学习型视频推荐方法和系统。本发明的方法通过引入被推荐项目的图像信息，将层次核描述子特征、“跨模态语义”、对抗学习等关键技术融入贝叶斯个性化排序模型中，构造出MVABRP模型，基于MVABPR模型优选一组最相关的项目推荐给用户。根据本发明的方法或系统，可基于异构数据（用户评分矩阵、图像）完成推荐任务，在一定程度上缓解推荐中的“数据稀疏”问题，并提升推荐的个性化程度。

Description

多模态对抗学习型视频推荐方法和系统

技术领域

本发明涉及计算机、人工智能领域，更具体地，涉及视频推荐方法和系统。

背景技术

近年来，互联网技术飞速发展，互联网应用产品层出不穷，它们具有交互能力强、操作便捷、易于传播等优势，并可以承载内容丰富的网络信息。然而，这也推动了网络中信息量的爆炸式增长，导致互联网用户常被淹没于海量数据中而无法自拔，出现了“信息过载”问题（也称“信息爆炸”）。推荐系统是应对“信息过载”问题的有效手段之一。

伴随人工智能（Artificial Intelligence，简称AI）时代的到来，集成了机器学习、数据挖掘、知识图谱、深度学习等先进技术的推荐系统将成为人们获取信息的主要方式，它们在人们的工作、生活、学习等过程中都扮演了非常重要的角色。调查数据显示：约28%的Choice Stream用户因推荐而愿意购买更多感兴趣的音乐；30%的Amazon销售产生于推荐系统的贡献；38%的Google News点击和80%的Netflix视频点播均来自推荐。在国内，阿里巴巴的最新统计数据显示：推荐系统对淘宝网的利润和访问量的贡献占比分别高达80%和50%。由此可见，推荐系统有力地推动了社会和经济的发展。

推荐系统也是解决“信息过载”问题最有效的方法之一。推荐的本质：替用户评估其从未看过或未接触过或未使用过的项目（物品），包括书籍、视频、新闻、音乐、餐馆、旅游景点等。只有贴近用户实际需求的推荐才是好的推荐。现有推荐系统主要分如下三类：基于内容的推荐系统、基于协同过滤的推荐系统和混合型推荐系统。基于内容的推荐系统根据用户浏览过的项目，从候选项目中选取其它特征相似的项目作为推荐结果，可采用K近邻（K-Nearest Neighbors，简称KNN）、线性分类器（Linear Classifier，简称LC）、朴素贝叶斯（Naive Bayes，简称NB）等模型完成推荐。基于内容的推荐系统缺乏对用户或项目的深层语义刻画，用户的推荐体验较差；基于协同过滤的推荐系统根据用户的历史信息（如评分）计算用户之间相似性，利用与目标用户相似性最高的邻居用户来评价其它项目，最终预测目标用户对特定项目的偏好程度，根据这一偏好完成推荐，可采用：矩阵分解（MatrixFactorization，简称MF）、非负矩阵分解（Nonnegative Matrix Factorization，简称NMF）、因子分解机（Factorization Machine，简称FM）和聚类算法等，基于协同过滤的推荐系统存在较严重的“数据稀疏”和“冷启动”问题；考虑到上述单一推荐方法都存在不足，故有学者将不同的推荐方法进行混合，以完成高质量推荐，这便是混合型推荐系统。如在协同过滤算法框架内，融入基于内容的推荐模型，借助项目内容有效缓解“数据稀疏”问题，进而改善推荐效果。

如图1所示，传统推荐系统多是基于“用户-项目（User-Item）”评分矩阵（也可简述为用户评分矩阵）完成推荐，即采用矩阵分解法刻画“用户和项目之间”（在图1中，推荐系统基于矩阵分解生成用户向量，也称用户特征表示，来刻画用户隐含兴趣，同时生成视频项目向量，也称项目特征表示，来刻画视频项目蕴含的深层语义，然后基于向量之间内积计算，判断用户兴趣与视频项目间的相似度，将相似度最高的项目推荐给用户）、“用户与用户之间”、“项目与项目之间”的隐含相关性或潜在语义关联，进而对用户偏好的项目做预测（如图1所示，用户1和用户3都看过视频2和视频3，用户3也喜欢视频5，上述偏好均用实线表示，在实线上用五角星数量描述偏好程度。基于协同过滤方法可以预测出用户1对视频5也存在偏好，用虚线刻画，进而完成高质量推荐）。在实际应用中，基于用户评分矩阵的推荐系统适合向长期用户做推荐，因为用户的浏览历史是分析其偏好的主要依据，只有长期并经常使用互联网网站的用户才会留下丰富的历史记录，如评分、评论等；而对于新用户，由于其浏览的历史信息偏少，故实际推荐效果并不好。综上，推荐系统的研究已取得许多突破性进展，它们极大地便利了人们的生产、生活。更具体的基于用户评分矩阵的协同过滤式推荐系统的技术流程如图2所示。

然而，现有推荐系统面临以下主要问题：

（1）推荐的个性化程度不高，未按照用户实际需求给出多样化的、贴近其真实偏好的推荐结果；

（2）由于用户浏览或评分的项目数量非常有限，因此用户评分矩阵中存在较严重的“数据稀疏”问题，严重影响推荐性能；

（3）仅依赖矩阵分解来获取项目特征表示，而缺乏对待推荐项目的深层语义刻画；

（4）主要考虑用户和项目之间的显式交互，而忽略那些关键的隐式交互，缺乏对用户潜在兴趣的分析；

（5）推荐结果更偏向于长期用户，对于新用户的实际推荐效果不好，即推荐中存在“冷启动”问题，无法向新用户做相关推荐。

发明内容

本发明提供一种多模态对抗学习型视频推荐方法和系统，至少在一定程度上解决背景技术中提到的问题。

本发明的第一方面，提供一种多模态对抗学习型视频推荐方法，该方法包括以下步骤：

（1）从互联网上获取用户对视频项目的真实评分，生成用户评分矩阵；

（2）从互联网上获取所述视频项目的海报图像，对所述海报图像进行预处理；

（3）提取所述海报图像中的一组特征，所述特征为纹理、形状、颜色、层次核描述子、深层卷积特征中的一种或多种；

（4）分析所述特征之间的典型相关性，所述典型相关性是能刻画所述海报图像内容的深层视觉语义信息；

（5）对所述用户评分矩阵进行分解，获取用户特征表示、项目特征表示；

（6）根据所述典型相关性，增强所述项目特征表示的可解释性，即从深层视觉语义角度丰富所述项目特征表示的内容；

（7）基于贝叶斯个性化排序方法，根据用户特征表示、项目特征表示，建立推荐模型，并采用梯度下降方法对所述推荐模型进行优化；

（8）在所述推荐模型中增加对抗学习方法，提升所述推荐模型的鲁棒性；

（9）在所述推荐模型中计算用户特征表示与项目特征表示的内积，基于所述内积得到用户对所述视频项目的偏好评分，所述偏好评分越高说明用户对该视频项目的偏好程度越高；

（10）对所述视频项目的偏好评分做降序排列，选取评分最高的N个视频项目并推荐给用户，其中N表示正整数。

进一步地，步骤（2）所述预处理为图像格式转换、图像尺寸、颜色调整中的一种或多种。

进一步地，步骤（3）所述层次核描述子的提取方法包括以下步骤：采用空间金字塔方法提取所述海报图像中的颜色或形状特征，基于高效匹配核的核空间映射，选择径向基函数、线性核核，生成所述层次核描述子。

进一步地，所述典型相关性包括纹理与形状间典型相关性、纹理与颜色间典型相关性、纹理与颜色间典型相关性、纹理与深层卷积特征间典型相关性、形状与颜色间典型相关性、形状与深层卷积特征间典型相关性、颜色与深层卷积特征间典型相关性、纹理与形状及颜色间典型相关性、纹理与形状及深层卷积特征间典型相关性、形状与颜色及深层卷积特征间典型相关性、全部特征间典型相关性中的一种或多种。

进一步地，所述典型相关性由改进的判别相关分性方法（DCA）得到，其中所述改进的判别相关分性方法（DCA）包括以下步骤：

对从所述视频海报中提取的特征进行组合，得到两类特征融合、三类特征融合或四类特征融合；

针对两类特征融合，执行如下操作：输入所述视频海报的两类图像特征的原始矩阵；建立所述视频海报的两类图像特征原始矩阵间的类间散度矩阵；基于所述类间散度矩阵，计算对角化类间协方差矩阵，并对其单位化，得到单位化协方差矩阵；基于所述单位化协方差矩阵计算针对输入的两类图像特征原始矩阵的转换矩阵，每个原始矩阵均对应一个转换矩阵；基于所述转换矩阵将输入的两类图像特征的原始矩阵映射到同构的语义空间中，即生成所述两类图像特征的映射矩阵；基于所述映射矩阵执行特征拼接操作，生成两类特征融合结果，即两类特征间的典型相关性；

针对三类特征融合，执行如下操作：输入所述视频海报的三类图像特征的原始矩阵；选取其中的所述视频海报的前两类图像特征的原始矩阵，执行所述两类特征融合的操作，生成前两类图像特征间的典型相关性；基于最后一类所述视频海报的图像特征的原始矩阵、所述的前两类图像特征间的典型相关性，执行所述两类特征融合的操作，生成三类图像特征融合结果；对所述的前两类图像特征间的典型相关性、所述的三类图像特征融合结果执行残差操作，获取最终的三类特征融合结果，即三类特征间的典型相关性；

针对四类特征融合，执行如下操作：输入所述视频海报的四类图像特征的原始矩阵；选取其中的所述视频海报的前三类图像特征的原始矩阵，执行所述三类特征融合的操作，生成前三类图像特征间的典型相关性；基于最后一类所述视频海报的图像特征的原始矩阵、所述的前三类图像特征间的典型相关性，执行所述两类特征融合，生成四类图像特征融合结果；对所述的前三类图像特征间的典型相关性、四类图像特征融合结果执行残差操作，获取最终的四类特征间的典型相关性。

进一步地，所述N为1、2、3、4、5、6、7、8、9或10。

本发明的第二方面，提供一种多模态对抗学习型视频推荐系统，该系统包括：

数据存储模块，用于存储从互联网上获取的用户评分矩阵和海报图像，并用于存储从所述视频海报中提取的图像特征，用于存储基于典型相关性分析方法提取出的典型相关性，用于存储用户建模模块生成的用户特征表示，用于存储项目建模模块生成的项目特征表示；

用户建模模块，用于访问所述用户评分矩阵，生成用户特征表示，并将所述用户特征表示存储于数据存储模块之中；

项目建模模块，用于访问所述用户评分矩阵、图像特征、典型相关性，生成项目特征表示，并将所述项目特征表示存储于数据存储模块之中；

计算模块，用于计算所述用户特征表示和所述项目特征表示间的内积，得到用户对待推荐项目的偏好评分，所述偏好评分越高表示用户对该视频项目的偏好程度越高；

推荐模块，用于基于所述用户的偏好评分对待推荐视频项目进行降序排列，选取偏好评分最高的N个视频项目推荐给用户，其中N表示正整数；

训练模块，用于在贝叶斯个性化排序框架内，完成所述推荐模型的训练；在训练中引入对抗学习扰动因子，使所述用户评分矩阵和图像特征间的语义联系更平滑，以增强特征表示的稳定性和所述推荐模型的鲁棒性。

进一步地，所述N为1、2、3、4、5、6、7、8、9或10。

本发明技术方案带来的有益效果：

（1）通过引入被推荐项目的图像信息，从多源、异构数据的角度刻画待推荐项目，并综合显式和隐式语义信息更全面、客观地描述用户偏好，进而不断优化推荐系统，并逐步缓解推荐中的“数据稀疏”问题；

（2）设计全新的层次核描述子特征（HKDS），细化原始图像特征的表示，利用核化特征描述待推荐项目；在提取多个互补图像特征的基础上，提出改进的判别相关分析方法（DCA），以挖掘蕴含于不同图像特征间的“跨模态语义”，从多模态角度刻画待推荐项目；

（3）将HKDS特征、“跨模态语义”、对抗学习等关键技术融入贝叶斯个性化排序（BPR）模型中，构造出MVABRP模型，计算用户对项目的偏好评分，完成基于图像数据、用户评分矩阵的多模态对抗学习推荐活动；

（4）基于MVABPR模型优选一组最相关的项目（用户偏好评分最高的 N个项目）推荐给用户，由于考虑“跨模态语义”挖掘、对抗学习、矩阵分解、偏序建模，一方面，推荐性能大幅提升；另一方面，这组项目能贴近用户实际需求，进而充分体现个性化推荐，改善了用户的推荐体验。

附图说明

图1是传统推荐系统实现推荐的基本原理示意图。

图2是基于传统模型的推荐系统的示意图。

图3显示了基于MVABPR模型的推荐系统框架。

图4显示了MVABPR模型中不同“跨模态语义”（前一半）的推荐性能提升幅度(MovieLens-100K-MP)。

图5显示了MVABPR模型中不同“跨模态语义”（后一半）的推荐性能提升幅度(MovieLens-100K-MP)。

图6显示了MVABPR模型中不同“跨模态语义”（前一半）的推荐性能提升幅度(MovieLens-1M-MP)。

图7显示了MVABPR模型中不同“跨模态语义”（后一半）的推荐性能提升幅度(MovieLens-1M-MP)。

图8显示了用雷达图来衡量MVABPR模型的综合推荐性能(MovieLens-100K-MP)。

图9显示了用雷达图来衡量MVABPR模型的综合推荐性能(MovieLens-1M-MP)。

图10显示了电影《英国病人》（英文名为English Patient）的海报图像。

图11显示了电影《双面镜》（英文名为Mirror Has Two Faces）的海报图像。

图12显示了电影《球爱的天空》（英文名为Tin Cup）的海报图像。

图13显示了电影《心灵捕手》（英文名为Good Will Hunting）的海报图像。

图14显示了电影《秘密与谎言》（英文名为Secrets & Lies）的海报图像。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的具体结果，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都应当属于本发明保护的范围。

本发明实施例提供一种多模态对抗学习型视频推荐系统和方法，可基于异构数据（用户评分矩阵、图像）完成推荐任务，在一定程度上缓解推荐中的“数据稀疏”问题，并提升推荐的个性化程度。

多模态对抗学习型视频推荐系统包括数据获取模块、图像处理模块、数据存储模块、用户建模、项目建模模块、计算模块、推荐模块和训练模块。

其中，数据获取模块用于提供多模态对抗学习型推荐方法所需的用户评分矩阵、待推荐视频项目的海报图像等数据。在基准数据MovieLens-100K和MovieLens-1M（基准数据均从https://grouplens.org/datasets/movielens/获取）中只包含用户评分矩阵，且其稀疏程度较高。设计爬虫程序从互联网爬取待推荐视频项目的海报图像，生成新数据MovieLens-100K-MP 和MovieLens-1M-MP（MP指Movie Posters，即视频海报）。所述新数据是集用户评分矩阵、海报图像等于一体的多模态数据集，相关统计信息如表1所示。

表1 MovieLens-100K-MP和MovieLens-1M-MP数据的统计信息

如表1所示，根据稠密度可知，原基准数据MovieLens-100K和MovieLens-1M中的用户评分矩阵的稀疏现象非常严重，尤其是MovieLens-1M。因此，需围绕基准数据进行数据扩充，即为每个待推荐视频项目都添加对应视频海报图像（来自外部信息源，如互联网），为后续采用深层视觉语义进行项目建模、从显式和隐式两大角度刻画用户潜在兴趣以及应对推荐中的“数据稀疏”问题奠定重要的数据基础。

图像处理模块用于对所述待推荐视频项目的海报图像执行预处理、特征提取、典型相关性分析等操作。其中，预处理用于对表1中图像执行一组基本处理，包括转换图像文件格式、调整图像尺寸、调整图像颜色等操作，目的是归一化全部所述待推荐视频项目的海报图像，为后续图像特征提取、典型相关性分析做好准备；特征提取用于提取所述待推荐视频项目海报图像中的一组特征，所述特征为纹理、形状、层次核描述子、颜色和深层卷积特征中的一种或多种，即SIFT（S）、LAB（L）、HSV（H）、RGB（R）、HKDS（K）、VGG（V）等，它们从不同的视觉角度刻画所述图像中的视觉语义信息，是鉴别不同项目的重要依据；典型相关性分析用于在所述特征提取基础上，进一步挖掘跨越多种不同图像特征的深层视觉语义信息（“跨模态语义”），相比提取的所述特征，所述“跨模态语义”的语义内容更丰富、完整，它打通了异构模态数据之间的内在联系，能更好地区别不同的海报图像，也是鉴别不同视频项目的重要依据。

用户建模和项目建模模块用于对所述待推荐视频项目、用户分别建模。采用矩阵分解技术处理用户评分矩阵，生成最基本的用户特征表示和待推荐视频项目特征表示。每一个用户特征表示都是一个高度稀疏的向量空间，向量的每个维度指该用户对某一个待推荐项目的偏好；每一个项目特征表示也是一个高度稀疏的向量空间，向量的每个维度指某一个用户对当前视频项目的偏好。因此，用户特征表示和项目特征表示之间存在内在关联。具体的建模过程包括：首先，对表1数据中的用户评分矩阵进行矩阵分解，获取用户特征表示、初始的项目特征表示；其次，将所述“跨模态语义”加入到初始的项目特征表示中，打通用户评分矩阵和图像数据之间的语义联系，丰富项目特征表示中的视觉语义内容，并增强其可解释性，生成最终的项目特征表示；而由于用户特征表示和项目特征表示之间存在内在关联，稳定、鲁棒的项目特征表示能促使用户特征表示更趋稳定，并从显式（用户评分矩阵）和隐式（深层视觉语义）两大角度刻画用户的偏好；基于最终的用户特征表示完成用户建模；基于最终的项目特征表示完成项目建模。

推荐模块用于根据所述用户特征表示、所述项目特征表示，计算用户的偏好评分并生成推荐列表。基于贝叶斯个性化排序框架，根据所述用户特征表示、所述项目特征表示，建立推荐模型，并采用梯度下降方法对所述推荐模型进行优化。推荐的具体过程包括：在所述推荐模型中计算所述用户特征表示与所述项目特征表示的内积，基于所述内积得到用户对待推荐项目的偏好评分，该偏好评分越高表示用户对该项目的偏好程度越高；对待推荐项目的所述偏好评分做降序排列；选取所述降序排列中评分最高的N个项目，推荐给用户。综上，所述推荐模型的特点包括：综合显式和隐式两大角度刻画用户偏好；在所述推荐模型中增加对抗学习方法，增强所述项目特征表示的稳定性，进而提升所述推荐模型的鲁棒性；充分考虑每个用户对项目偏好的偏序关系，即用户偏好的项目必须排在不偏好的项目之前，以实现个性化推荐。

其中，所述层次核描述子特征提取方法，包括：

提取所述待推荐视频项目海报图像的相关特征，包括颜色（RGB、LAB、HSV）、形状（SIFT）等；为增强特征中的空间位置信息，在特征提取过程中加入空间金字塔方法，提取更精细的图像特征；

对已提取的图像特征执行基于高效匹配核的核空间映射，核选择径向基函数、线性核，即基于所述核计算局部图像块之间的视觉相似性，基于该视觉相似性生成核描述子特征；

设计由局部块至完整图像的层次化结构，分别提取不同层的核描述子特征，最终生成层次核描述子特征。

由于采用颜色、形状作为基本特征，故新的层次核描述子特征主要从颜色、形状两大角度来刻画项目中的视觉语义。

采用改进的判别相关分性方法（DCA）来生成一组典型相关性（“跨模态语义”），该方法包括：

对所述的待推荐视频项目的图像特征进行组合，即根据两类特征融合、三类特征融合、四类特征融合等方式进行组合；

（A）针对两类特征融合，执行如下操作：

输入所述的待推荐视频项目的两类图像特征的原始矩阵；

建立所述待推荐视频项目的两类图像特征原始矩阵间的类间散度矩阵；

基于所述类间散度矩阵，计算对角化类间协方差矩阵，并对其单位化，得到单位化协方差矩阵；

基于所述单位化协方差矩阵计算针对输入的两类图像特征原始矩阵的转换矩阵，每个原始矩阵均对应一个转换矩阵；

基于所述转换矩阵将输入的两类图像特征的原始矩阵映射到同构的语义空间中，即生成所述两类图像特征的映射矩阵；

基于所述映射矩阵执行特征拼接操作，生成两类特征融合结果，即两类特征间的典型相关性（“跨模态语义”）；

（B）针对三类特征融合，执行如下操作：

输入所述的待推荐视频项目的三类图像特征的原始矩阵；

选取其中的待推荐视频项目的前两类图像特征的原始矩阵，执行所述两类特征融合，生成前两类图像特征间的典型相关性；

基于最后一类待推荐视频项目的图像特征的原始矩阵、所述的前两类图像特征间的典型相关性，执行所述两类特征融合，生成三类图像特征融合结果；

对所述的前两类图像特征间的典型相关性、所述的三类图像特征融合结果执行残差操作，获取最终的三类特征融合结果，即三类特征间的典型相关性（“跨模态语义”）；

（C）针对四类特征融合，执行如下操作：

输入所述的待推荐视频项目的四类图像特征的原始矩阵；

选取其中的待推荐视频项目的前三类图像特征的原始矩阵，执行所述三类特征融合，生成前三类图像特征间的典型相关性；

基于最后一类待推荐视频项目的图像特征的原始矩阵、所述的前三类图像特征间的典型相关性，执行所述两类特征融合，生成四类图像特征融合结果；

对所述的前三类图像特征间的典型相关性、四类图像特征融合结果执行残差操作，获取最终的四类特征间的典型相关性。

因此，伴随参与融合特征数的增加，也相应增加残差操作，以充分利用不同特征间的互补性，提升所生成的“跨模态语义”的判别性。

综上所述，首先，围绕基准数据，获取待推荐项目的图像信息，以丰富基准数据集；其次，从形状、纹理、颜色、层次核描述子、深度学习等角度提取图像的SIFT（S）、LAB（L）、HSV（H）、RGB（R）、HKDS（K）、VGG（V）、ResNet（RE50）等特征（如图3所示，各种图像特征用不同的颜色方块表示），采用所提特征初步刻画待推荐项目中的视觉语义。由于特征提取中充分考虑异构特征间的互补性，且不同特征指向相同或相似的视觉语义，故基于所述典型相关性分析模型（DCA）深入挖掘这些互补特征间的“跨模态语义”，分别用“H+L”、“H+R”、“H+R+V”等表示“跨模态语义”，其维度较原始特征更低，但判别性却更强，它们从深层视觉语义的角度刻画待推荐项目，进而有效改善推荐性能。例如，“H+S”表示HSV与SIFT特征之间蕴含的“跨模态语义”；再次，基于矩阵分解技术获取用户特征表示和项目特征表示，它们均是高维、稀疏的向量，向量的每个维度蕴涵用户与项目间的语义关联（偏好与否）；采用“跨模态语义”完善待项目建模，即综合“跨模态语义”和已获得的项目特征表示，建立最终的项目特征表示；基于用户特征表示、项目特征表示，采用向量间内积的方法计算用户对待推荐项目的偏好评分，若偏好评分越高则表示用户越偏好于该项目，应该将其推荐给用户。最终，在贝叶斯个性化排序框架中优化模型，包括：加入对抗学习扰动因子、采用梯度下降方法训练模型、对用户偏好的偏序建模等，完成个性化推荐活动，即将用户偏好评分最高的 N个项目推荐给用户，有效改善推荐性能并缓解推荐中的“数据稀疏”问题。多模态对抗学习型推荐系统的核心框架请参考图3。

下面结合附图，通过具体的实施例及其应用场景对本发明实施例提供的多模态对抗学习型视频推荐方法和系统进行详细地说明。

实施例一：

获取用于多模态对抗学习推荐所需的用户评分矩阵、视频项目的海报图像等数据，它是一个多模态数据集合。

提取待推荐项目的一组图像特征，包括：纹理、形状、颜色、层次核描述子、深层卷积网络等特征，它们从不同的视觉角度刻画待推荐项目。

为了获取更精准的用户建模和项目建模，围绕上述图像特征，采用改进的判别相关分析方法提取一组典型相关性，每组典型相关性均从不同的视觉角度刻画待推荐项目，这些典型相关性也被称为“跨模态语义”，相比上述图像特征，它是一种深层视觉语义。

多模态对抗学习推荐的核心是MVABPR模型，故围绕它展开个性化推荐活动，MVABPR模型包括：

定义MVABPR模型的预测函数如公式（1）所示，它用于计算用户u对待推荐项目i的偏好评分：

是计算两个向量空间的内积，

则是基于待推荐项目图像特征的用户偏好描述，故项目与用户之间存在关联。其中

表示：基于用户评分矩阵生成的用户u（或项目i）各自对应的K维特征向量（R表示在欧几里德空间中），它是一种基于奇异值分解技术的语义描述，可视为最基础的用户（或项目）特征表示。因此，每一个用户特征表示都是一个高度稀疏的向量空间，该向量的每个维度指该用户对某一个待推荐项目的偏好，这是一种显式角度。而每一个待推荐项目的特征表示也是一个高度稀疏的向量空间，该向量的每个维度指某一个用户对当前待推荐项目的偏好。

是用户u所对应的K维特征向量，它与待推荐项目的视觉特征相关，即它从隐式角度来刻画用户的偏好。

表示待推荐项目i的视觉特征向量（该向量的内容由具体图像特征或“跨模态语义”决定，D是图像特征或“跨模态语义”的维度。由于，“跨模态语义”比图像特征蕴涵更丰富的深层视觉语义信息，故在MVABPR模型中，D表示“跨模态语义”），

是一个中间转换矩阵，它将“跨模态语义”进行维度转置，使其最终能满足矩阵乘积需要。因此，Ec _i是待推荐项目的视觉特征描述（蕴涵“跨模态语义”）。显然，MVABPR模型引入视觉特征描述来完成对待推荐项目建模，进而从视觉特征角度分析用户与待推荐项目之间的内在关联，从显式和隐式两大角度描述用户偏好。

为体现个性化推荐要求，需对用户偏好进行偏序建模，即采用成对排序损失函数来实现推荐模型优化，完成对模型中隐式反馈数据的调整。用户偏好的偏序建模思想：存在交互的“用户-项目”评分应高于未产生交互的“用户-项目”评分。该思想能将用户所偏好的项目排在不偏好的项目之前。所以，对每个可观测到的“用户-项目”交互(u,i)，MVABPR模型最大限度扩大该“用户-项目”对与未产生交互的“用户-项目”对之间的距离。因此，模型需要最小化如下的目标函数：

是sigmoid函数，β为控制L ₂正则化的参数，以防止推荐模型过拟合，集合

表示：训练集D中所有“用户-项目”对，其中U、I、

、

分别表示用户集合、项目集合、与用户存在交互关系的项目集合及与用户不存在交互关系的项目集合，故i表示与用户存在交互关系的项目，对应的评分

由公式(1)计算，而j 表示与用户不存在交互关系的项目，对应的评分由公式(1)来计算。为成对训练所有项目，使用随机梯度下降法优化评分函数。此时，给定一个训练样本(u,i)，推荐系统只需更新公式(1)中的两个特征向量(p _u,q _i)和特征变换矩阵E即可。

为增加项目特征表示的稳定性和鲁棒性，继续在推荐模型中引入用于对抗学习的扰动因子，故原公式(1)所示的评分函数变为如下形式：

其中，

和

的含义和公式(1)相同，

表示在“跨模态语义”中添加用于对抗学习的扰动因子。虽然，对抗训练不能提升跨模态语义c_i的质量，但它可以提升矩阵分解中视觉特征表示Ec _i的稳定性，即用户项目表示的稳定性，并促进用户偏好建模。所以，融入“跨模态语义”及对抗学习的MVABPR模型是对待推荐项目的深度建模。在对抗学习训练过程中，E可以不断更新，从而使公式(3)所示的评分函数更鲁棒。此外，项目的深度建模可以促使用户特征表示的更新，即从显式和隐式两大角度深入描述用户偏好。

公式(2)最小化BPR损失，故设计一个相反的目标去训练

可获得最好的效果，即最大化BPR损失。最终，最大化BPR损失的公式如下所示：

其中

表示L ₂正则化参数，ε是一个控制

的超参数，它可以避免BPR损失一直增加并超出

的范围。对比原始的BPR损失（公式(2)），公式(4)移除了模型的L ₂正则化参数，因为模型参数是基于

构建的，和

不相关的其它参数都可以移除。

均由公式(3)计算。为了完成模型最初的训练目标，即最小化原始的BPR损失，以得到最佳的模型参数

。

最小化BPR损失的公式如(5)所示：

λ是影响模型训练的超参数。

为了统一训练的两个过程，可将公式(4)和(5)构建成一个minimax目标函数，如下所示：

使用随机梯度下降法完成模型训练并更新相关参数

（表示最佳扰动参数），直到模型收敛。

为了表示方便，将公式(2)中的部分内容进行简化，如下所示：

所以，更新参数的公式可以表示为：

至此，MVABPR模型训练完成。

围绕已训练好的MVABPR推荐模型，首先采用公式(3)计算用户对待推荐项目的偏好评分，它是一个数值，每个项目分别对应一个偏好评分。然后，基于用户的偏好评分对一组待推荐项目进行降序排列，即由大到小地排列所有偏好评分。最后，由于偏好评分越高意味着用户更大概率地偏好于对应项目，故选取偏好评分最高的 N个项目推荐给用户，完成个性化推荐活动。

为更好地理解MVABPR模型的具体效果，给出多组特征融合（如上所述：两类特征融合、三类特征融合、四类特征融合）下的MVABPR模型的具体运行结果，具体如图4、图5所示。其中“R+H”表示图像特征“RGB（R）”和“HSV（H）”中的“跨模态语义”；“R+H+L”表示图像特征“RGB（R）”、“HSV（H）”和“LAB（L）”中的“跨模态语义”；“R+H+L+V”表示图像特征“RGB（R）”、“HSV（H）”、“LAB（L）”和“VGG16（V）”中的“跨模态语义”，其它特征组合类似。“R_E+H_E”表示两大颜色核描述子特征“HKDE-RGB”和“HKDE-HSV”中的“跨模态语义”；“R_E+L_E+V”表示两大颜色核描述子特征“HKDE-RGB”、“HKDE-LAB”和深层卷积特征“VGG16”中的“跨模态语义”；其它特征组合类似。评价指标选择NDCG@5和NDCG@10。NDCG表示归一化折损累计增益，其值越大越好。NDCG@5表示当N=5（推荐5个项目）时的推荐准确率。NDCG@10同理。

如图4、图5显示：在MovieLens-100K-MP数据集中，对于两类特征融合，“R_E+L_E”组合表现最好。如上所述，充分挖掘有价值的颜色语义信息，进而刻画待推荐项目中视觉内容。再次，颜色特征“RGB”和“HSV”之间存在隐性的典型相关性，MVABPR模型能分析它们之间的典型相关性并融合生成对应“跨模态语义”，即得到了更多有价值的颜色语义信息，这些颜色语义信息有助于改善推荐性能。对于三类特征融合，“R_E+H_E+L_E”组合表现最优，它也稍优于“R_E+H_E”组合。这表明：虽然“LAB”不是效果最好的单特征，但是，由于特征抽取方式完全不同，故“LAB”特征与“HSV”和“RGB”特征具有一定互补性，这一互补性被MVABPR模型挖掘并应用到推荐过程中，用以改善推荐性能。最后，对于四类特征融合，“R_E+H_E+L_E+S_E”组合表现最佳，“S_E”特征主要描述图像中的形状信息，可以用来区分不同种类的待推荐项目。除颜色特征之外，“VGG16”这一深层卷积特征能更好地刻画待推荐项目中的深层视觉语义，它是对颜色特征的有益补充，有助于提升“跨模态语义”的判别性能，进而改善推荐效果。

如图6、图7所示：在MovieLens-1M-MP数据集上也可以得到与MovieLens-100K-MP数据集相似的实验结论。其中，在两类特征融合中，“R_E+H_E”表现最优，原因同上；在三类特征融合中，“R_E+H_E+L_E”表现最优，原因同上；在四类特征融合中，“R_E+H_E+L_E+S_E”表现最优，显然，伴随图像数据的不断增加（参见表1），一些重要的形态或深层语义能够被“S”和“V”特征所描述，并使得这些特征在后续特征融合中发挥重要作用。此外，和上述特征组合相比，层次核描述子（HKDE）类特征也能在一定程度上改善最终推荐性能。

如表1所示，虽然MovieLens-1M-MP更稀疏，但在图7中，“R+H”、“R+H+L”等“跨模态语义”的性能明显优于单特征“H_E”，即同时引入“跨模态语义”和对抗学习的MVABPR模型可以在一定程度上缓解“数据稀疏”问题。因此，在分析用户评分数据基础上，再加入合适的视觉语义信息对于改善推荐性能是非常有价值的。此外，与MovieLens-100K-MP相比，在MovieLens-1M-MP中融合深层卷积特征“VGG16”能获得相对更大的性能提升（如MovieLens-1M-MP上的“R+S” > “R+S+V”），这主要是因为：MovieLens-1M-MP中图像数据更丰富，它有助于VGG16模型去发现更多有价值的深层视觉语义，进而改善模型性能。

为进一步验证模型的先进性，将所提的MVABPR模型与目前多个主流推荐模型进行深入比较。对比模型包括：LambdaFM、BPR、IRGAN、UPM-GAN、NMF、DMF、MMVBPR和ABPR等模型。对于MVABPR模型，选择图4~图7中的最优结果，最终实验结果如表2、表3所示。其中MVABPR_CCA模型和MVABPR_KCCA模型是MVABPR模型的两个变种，即采用典型相关性分析（CCA）或核典型相关性分析（KCCA）模型，替换DCA模型完成“跨模态语义”分析，其所有特征及实验过程与MVABPR_DCA完全相同。若变种模型表现优异能进一步证明MVABPR模型的通用性。

在全部对比模型中，ABPR和MMVBPR模型是两个最具竞争力的模型，故在表2中倒数第二行、最后一行分别表示：在MovieLens-100K-MP上，MVABPR_DCA模型相对ABPR和MMVBPR模型的性能提升幅度Improve₁和Improve₂。在表3中，倒数第二行、最后一行分别表示：在MovieLens-1M-MP上，MVABPR_DCA模型相对ABPR和MMVBPR模型的性能提升幅度Improve₃和Improve₄。如上述提升幅度值为正，说明MVABPR模型的优秀。

如表2、表3所示：MVABPR类模型获得了最佳的推荐性能，其中MVABPR_DCA模型表现最优。且在P@3（P表示准确率，故P@3表示当推荐3个项目时的准确率）、NDCG@3和NDCG@5这几个指标上的性能提升显著。在表2、表3中，推荐模型MLE、BPR、LambdaFM等的效果非常不好，其原因就是推荐数据中的“数据稀疏”问题非常严重，且仅分解用户评分矩阵，推荐模型无法获取更加精准的用户特征表示和项目特征表示，从而导致用户偏好评分出现偏差。而GraphGAN、UPM-GAN等模型通过引入对抗学习思想，增强了推荐性能，但它们却未考虑引入视觉特征及“跨模态语义”，项目建模、用户建模偏简单。因此，与这些基线相比，MVABPR模型引入了新特征（HKDE特征）、对抗学习（扰动因子）、“跨模态语义”挖掘等新思路，它们形成一种合力进而改善推荐性能，有效应对了推荐中的“数据稀疏”问题。同时，与最具竞争力的ABPR模型相比，MVABPR类模型的推荐性能也得到较大幅度提升（具体参见各表中最后一行）。不同于ABPR模型，MVABPR模型中引入图像视觉特征、跨模态语义挖掘、用户偏好的偏序建模等新思路，期望能从外部信息源（图像信息）的角度来抑制“数据稀疏”问题，进而改善模型的推荐性能。虽然，仅仅是MVABPR_DCA模型的变种，但是MVABPR_CCA和MVABPR_KCCA这两个模型也都优于全部对比基线。这意味着：所提整体框架是有效的和统一的，其实际意义更大，即使更换“跨模态语义”分析方法，变种模型的推荐性能并未出现大幅下降。

表 2 各推荐算法的性能比较 (MovieLens-100K-MP)（每一列最优的推荐性能表示如0.4473等所示）

如表2、表3所示：所有模型的整体推荐性能从高到低的排序结果为MVABPR > ABPR >MMVBPR > NMF > UPM-GAN > DMF > IRGAN > LambdaFM > GraphGAN > BPR > MLE。MVABPR的性能最优，它基于BPR模型。在模型设计中可知：MVABPR模型向外部提供了一个全新接口，该接口可以将视觉语义信息（如图像特征、“跨模态语义”等）集成到推荐系统框架中，进而配合基于用户评分矩阵分解的推荐过程，即从显式和隐式两大角度描述用户偏好，以改善最终的推荐性能。同时，这也说明：图像信息是对原MovieLens数据集的有益补充，它为构建多模态数据集提供了重要的思路，也为从外部信息源角度抑制推荐中的“数据稀疏”问题奠定数据基础（也可参见上面的分析）。同时，对抗学习是MVABPR模型中的重要润滑剂，它使训练过程更鲁棒、稳定，即在对抗学习的训练过程中，使BPR loss更稳定、更鲁棒，以获取更加精准的项目特征表示，进而刻画用户偏好，积极改善推荐性能并应对推荐中的“数据稀疏”问题。

更重要的是：MVABPR模型在MovieLens-1M-MP上获得到了更大的性能提升幅度。因为，引入外部信息源：待推荐项目的图像，并挖掘“跨模态语义”，可以从视觉特征角度有力地抑制“数据稀疏”问题。相比MovieLens-100K-MP，MovieLens-1M-MP中包含更丰富的图像样本，MVABPR模型通过特征提取（包括基于HKDE模型的新特征）、“跨模态语义”挖掘，从图像样本中找到更多有价值的深层视觉语义信息，它们是最终改善MovieLens-1M-MP数据集推荐性能进而缓解“数据稀疏”问题的关键因素。

表3 各推荐算法的性能比较(MovieLens-1M-MP)（每一列最优的推荐性能如0.4237等表示）

为更全面地评判MVABPR模型的性能优势，绘制融合P@5、P@10、 NDCG@5、 NDCG@10及MAP等关键性能指标的雷达图，如图8、图9所示。雷达图的面积（AKD）越大，说明推荐模型的整体推荐性能更优。在图8和图9中，MVABPR模型均拥有最大的雷达图面积，故它的整体推荐性能更好。

为了更好地说明MVABPR模型的优势，继续通过一组定性实例进行推荐结果展示，期望能辅助上面的定量分析，实验结果如表4所示。在表4中，提供了两个主流基线的推荐结果（由于同源，故选择BPR与ABPR这三个模型），与MVABPR模型的实际推荐结果比较。该数据源自MovieLens-100K-MP中随机选取的一个用户（编号：905）。表4中每一个正确的结果都用红色字体标出，最后一列是所推荐视频的实际海报图像，该列内容将使得定性分析更具针对性。

如表4所示：MVABPR模型明显优于其它两个主流的对比基线。MVABPR模型中的“跨模语义”挖掘、对抗学习、HKDS特征、偏序建模等都有助于提升最终的推荐性能，从而预测出更多正确的结果，更好地满足用户的实际需求。例如，MVABPR模型正确地预测出了用户“905”的真实视频偏好，即English Patient、Mirror Has Two Faces和Tin Cup，而其它基线模型只能预测出1~2个正确结果。通过观察推荐结果的视频海报图像可以推断出：新的视觉特征、“跨模态语义”等在实际推荐中发挥了重要作用。同时，由表4可见：English Patient、Mirror Has Two Faces和Tin Cup这三部影片的海报图像具有一些相似特征。例如，English Patient和Mirror Has Two Faces的色调相近，如前所述，HSV特征或HKDS-HSV特征中就包含了专门识别图像中关键色调的H分量，该H分量能有效地捕捉视频海报图像中的核心颜色语义，进而促进推荐模型完成用户和项目建模。其次，三部视频海报的中央位置（C位）都有两个相拥的人物，这种典型的形态及边缘特征可以被SIFT或深层卷积等特征所捕获，它们主要刻画图像中的关键形态或边缘变化。因此，合适的图像特征帮助MVABPR模型生成了更好的推荐结果。此外，对抗学习的引入使得项目特征表示更加鲁棒和稳定，有利于区分不同的待推荐项目。

表4 推荐模型的定性实验结果分析

综上，从定性和定量两个角度评判，MVABPR模型优于若干主流模型。它通过引入待推荐项目的图像内容来更好地刻画项目，并执行更为精细的项目建模；然后，抽取一组异构且互补的图像特征刻画待推荐项目；对上述图像特征执行跨模态语义挖掘，更全面、细致、精准地刻画待推荐项目；再次，在训练过程中加入基于对抗学习的扰动因子，通过对抗学习增加待推荐项目特征表示的稳定性和鲁棒性。最终，训练出高效、方便的基于多模态视觉对抗贝叶斯个性化排序的推荐模型，为用户提供个性化的推荐服务，并积极应对推荐中的“数据稀疏”问题。

Claims

1.一种多模态对抗学习型视频推荐方法，包括以下步骤：

（3）提取所述海报图像的一组特征，所述特征为纹理、形状、颜色、层次核描述子、深层卷积特征中的一种或多种；

（4）分析所述特征之间的典型相关性，所述典型相关性是刻画所述海报图像内容的深层视觉语义信息；

2.根据权利要求1所述的方法，其特征在于，步骤（2）所述预处理为图像格式转换、图像尺寸调整、颜色调整中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，步骤（3）所述层次核描述子的提取方法包括以下步骤：采用空间金字塔方法提取所述海报图像中的颜色特征或形状特征，基于高效匹配核的核空间映射，选择径向基函数、线性核，生成所述层次核描述子。

4.根据权利要求1所述的方法，其特征在于，所述典型相关性包括纹理与形状间典型相关性、纹理与颜色间典型相关性、纹理与深层卷积特征间典型相关性、形状与颜色间典型相关性、形状与深层卷积特征间典型相关性、颜色与深层卷积特征间典型相关性、纹理与形状及颜色间典型相关性、纹理与形状及深层卷积特征间典型相关性、形状与颜色及深层卷积特征间典型相关性、全部特征间典型相关性中的一种或多种。

5.根据权利要求1所述的方法，其特征在于，所述典型相关性由改进的判别相关分性方法得到，其中所述改进的判别相关分性方法包括以下步骤：

针对两类特征融合，执行如下操作：输入所述视频海报的两类图像特征的原始矩阵；建立所述视频海报的两类图像特征原始矩阵间的类间散度矩阵；基于所述类间散度矩阵，计算对角化类间协方差矩阵，并对其单位化，得到单位化协方差矩阵；基于所述单位化协方差矩阵，计算针对输入的两类图像特征原始矩阵的转换矩阵，每个原始矩阵均对应一个转换矩阵；基于所述转换矩阵将输入的两类图像特征的原始矩阵映射到同构的语义空间中，即生成所述两类图像特征的映射矩阵；基于所述映射矩阵执行特征拼接操作，生成两类特征融合结果，即两类特征间的典型相关性；

针对三类特征融合，执行如下操作：输入所述视频海报的三类图像特征的原始矩阵；选取其中的所述视频海报的前两类图像特征的原始矩阵，执行所述两类特征融合操作，生成前两类图像特征间的典型相关性；基于最后一类所述视频海报的图像特征的原始矩阵、所述的前两类图像特征间的典型相关性，执行所述两类特征融合操作，生成三类图像特征融合结果；对所述的前两类图像特征间的典型相关性、所述的三类图像特征融合结果执行残差操作，获取最终的三类特征融合结果，即三类特征间的典型相关性；

针对四类特征融合，执行如下操作：输入所述视频海报的四类图像特征的原始矩阵；选取其中的所述视频海报的前三类图像特征的原始矩阵，执行所述三类特征融合操作，生成前三类图像特征间的典型相关性；基于最后一类所述视频海报的图像特征的原始矩阵、所述的前三类图像特征间的典型相关性，执行所述两类特征融合，生成四类图像特征融合结果；对所述的前三类图像特征间的典型相关性、四类图像特征融合结果执行残差操作，获取最终的四类特征间的典型相关性。

6.根据权利要求1所述的方法，其特征在于，所述N为1、2、3、4、5、6、7、8、9或10。

7.一种多模态对抗学习型视频推荐系统，包括：

数据获取模块，用于从互联网上获取用户对视频项目的真实评分、视频项目的海报图像；

图像处理模块，用于对所述海报图像执行预处理、特征提取、典型相关性分析操作；

8.根据权利要求7所述的系统，其特征在于，所述N为1、2、3、4、5、6、7、8、9或10。