CN111984824A

CN111984824A - 一种基于多模态的视频推荐方法

Info

Publication number: CN111984824A
Application number: CN202010765025.6A
Authority: CN
Inventors: 杨佳雪; 韩立新
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-24

Abstract

本发明公开了一种基于多模态的视频推荐方法，包括如下步骤：根据用户已经观看的视频序列获取用户行为特征向量；获取候选视频集中候选视频的视频标题特征向量；对候选视频集中候选视频进行图像筛选，得到候选视频对应的关键图像帧；将所有关键图像帧输入VGG16网络中，提取对应的图像特征向量；将视频标题特征向量和图像特征向量进行特征融合，得到多个视频特征向量；计算用户行为特征向量和视频特征向量的余弦相似度；根据余弦相似度向用户推荐视频。本发明通过分析目标用户和候选集中视频之间的相似度，将相似度最高的视频推荐给目标用户，以达到提升推荐效果的目的。

Description

一种基于多模态的视频推荐方法

技术领域

本发明涉及视频推荐领域，特别涉及一种基于多模态的视频推荐方法。

背景技术

随着互联网的快速发展，人们可以通过网络很便利地获取自己所需要的信息，然而，由于其数据量过大，人们不得不花费时间在海量数据中找出自己感兴趣的部分，信息过载问题越来越严重。推荐系统的出现，使得信息过载问题得以缓解。个性化推荐系统根据用户与项目之间交互的历史数据，分析用户的习惯、兴趣偏好等特征；另一方面，推荐系统根据项目自身的特性分析项目的特征，在用户特征和项目特征之间建立联系，最终精确地推荐给用户可能感兴趣的项目。近年来，随着短视频应用的流行，短视频推荐系统受到广泛关注，许多先进的推荐算法也被应用到视频推荐中，但是它们都有一些缺陷。基于协同过滤算法的视频推荐系统通过寻找与目标用户兴趣相近的用户进而进行推荐，然而当用户数量较少时容易引发冷启动问题；基于标签的推荐主要用于用户在上传视频时在标题中添加标签以方便用户检索，但是可能发生视频的标题标签与视频的内容不匹配的情况，此时基于标签的推荐系统无法正常推荐；基于社交网络的推荐利用社交网络数据获取用户兴趣偏好及其好友信息，并根据获取的数据为用户进行个性化推荐、好友推荐和信息流的会话推荐，然而好友数据通常难以获取，另一方面，有时用户的好友关系并不是基于共同兴趣产生的，所以用户好友的兴趣往往和用户的兴趣并不一致，比如，我们和自己父母的兴趣往往差别很大。因此，现有的视频推荐系统还存在一定的不足。

发明内容

针对现有技术的不足，本发明的目的在于提供一种基于多模态的视频推荐方法，以解决现有技术中存在的推荐效果不佳的问题。

为解决上述技术问题，本发明采用的技术方案为：

一种基于多模态的视频推荐方法，包括如下步骤：

根据用户已经观看的视频序列获取用户行为特征向量；

获取候选视频集中候选视频的视频标题特征向量；

对候选视频集中候选视频进行图像筛选，得到候选视频对应的关键图像帧；

将所有关键图像帧输入VGG16网络中，提取对应的图像特征向量；

将视频标题特征向量和图像特征向量进行特征融合，得到多个视频特征向量；

计算用户行为特征向量和视频特征向量的余弦相似度；

根据余弦相似度向用户推荐视频。

进一步的，所述用户行为特征向量的获取方法如下：

将用户已经观看的视频序列等效为一个词语；

通过word2vec对词语进行处理，使相似的视频聚集到特征空间中相近的位置，得到用户行为特征向量。

进一步的，所述视频序列表示为：

其中，

表示用户u_j在观看第i-1个视频

后点击的第i个视频。

进一步的，所述视频标题特征向量的获取方法如下：

将候选视频的标题句子分割成词，同时去除低频词和停用词；

将句子中的词语依次输入经过预训练的CBOW模型中，得到词语向量，将其合并得到句子矩阵；

将句子矩阵输入textcnn中进行卷积操作，分别利用不同的卷积核提取标题中不同范围内的多个局部特征；

将多个局部特征分别经过最大池化操作，拼接合并形成视频标题特征向量。

进一步的，所述CBOW模型将句子中的每个词语映射成一个8维向量，用一个矩阵表示一个句子，矩阵的每一行对应一个词语，用一个8维向量表示，矩阵的行数对应句子的长度。

进一步的，所述关键图像帧的获取方法如下：

对于候选视频集中的任意一个视频使用多媒体处理工具ffmpeg按照固定间隔的方式提取视频的关键图像帧。

进一步的，所述图像特征向量的提取方法包括：

将关键图像帧依次输入到已在ImageNet数据集中预训练的VGG16网络中，分别经过多次卷积-池化层，用不同的卷积核提取图像的不同内容信息，提取最后一个池化层的输出作为图像特征向量，将同一个视频的不同图像特征向量进行平均，作为该视频的图像特征向量。

进一步的，所述视频特征向量的提取方法包括：

将视频标题特征向量和图像特征向量进行外积运算，得到矩阵；

将矩阵在行方向上进行平均运算操作，得到视频标题特征向量和图像特征向量的融合信息，即视频特征向量。

进一步的，所述余弦相似度计算公式为：

其中，

为用户集中第j个用户u_j的特征向量；

为视频集中第i个用户v_i的特征向量；

为向量

的第k个分量；

为向量

的第k个分量。

进一步的，还包括：

根据余弦相似度对候选视频集中所有的视频进行排序；

根据排序选出相似度最高的视频推荐给用户。

与现有技术相比，本发明所达到的有益效果是：

1、本发明通过分析用户历史视频序列，能够充分捕捉到用户随时间而变化的兴趣偏好，并将用户的偏好进行特征映射，反应用户对于特定视频或者特定用户的兴趣偏好，可以更好地得到用户行为特征向量，通过综合考虑候选视频的视频标题特征向量、关键图像帧信息，对视频标题特征向量和图像特征向量进行特征融合，消除视频标题标签与视频的具体内容不匹配的影响，最后通过分析目标用户和候选集中视频之间的相似度，将相似度最高的视频推荐给目标用户，以达到提升推荐效果的目的；

2、本发明方法使用深度学习算法分析视频的标题特征，对其使用卷积网络处理，同时使用了不同的卷积核对文本内容进行卷积操作，提取句子的不同特征，充分挖掘文本的语义信息；

3、本发明方法提取视频的关键帧，对图像信息进行一定程度上的筛选，将图像信息输入已经预训练的用于图像分类的卷积神经网络中，依次经过不同的卷积核用于提取不同方面的图像特征，在最后一个池化层的输出看作图像的特征向量，可以充分表示图像内容特征。

4、本发明方法通过融合标题特征以及图像特征作为视频的特征向量，求其与用户行为特征的余弦相似度，作为用户对该视频感兴趣程度的度量，根据余弦相似度进行排序，相似度最高的用户可能最感兴趣。

附图说明

图1为本发明实施例的短视频推荐系统的整体架构图；

图2为本发明实施例的多模态视频推荐方法的特征构造步骤流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于多模态的视频推荐方法，包括如下步骤：

根据用户已经观看的视频序列获取用户行为特征向量；

获取候选视频集中候选视频的视频标题特征向量；

计算用户行为特征向量和视频特征向量的余弦相似度；

根据余弦相似度向用户推荐视频。

参见图1，一种基于多模态的视频推荐方法，包括以下步骤：

101、获取用户行为特征向量：对于数据集中的任意一个用户，获取其已经观看的视频序列。由于用户经常倾向于关注相同的作者或类似的视频，因此可以将其兴趣向量化表示，将用户感兴趣的视频映射到特征空间中相近的位置。

102、获取候选视频的视频标题特征向量：对于任意一个视频的标题分量，使用textcnn网络分析其携带的内容信息并将其向量化表示。

103、图像筛选：对于任意一个候选视频，视频中通常包含过多的图像帧，其中会有许多冗余信息，因此需要筛选出最能代表视频信息的图像，作为候选视频对应的关键图像帧，在接下来的步骤中对其进行处理。

104、获取图像特征向量：对于任意一个候选视频，根据步骤103得到的关键图像帧，将各视频片段输入已经过预训练的VGG16网络中，用不同的卷积核提取图像的不同内容信息，同一个视频的不同图像特征向量求平均作为完整视频的图像特征向量。

105、特征融合：根据步骤102、步骤104提取的视频标题特征向量和图像特征向量，对其进行融合，生成最终关于视频的视频特征向量。

106、视频推荐：分析步骤101生成的用户行为特征向量以及步骤105中提取的视频特征向量的余弦相似度，向用户推荐其可能感兴趣的视频。

参见图2，给出了本发明实施例的多模态视频推荐方法的特征构造步骤流程图，包括以下步骤：

201、对于数据集中的任意一个用户，获取其已经观看的视频序列。由于用户经常倾向于关注相同的作者或类似的视频，因此可以将其兴趣向量化表示。对于用户集U中的任一用户u_j，其历史观看序列为

其中，第i个视频

表示用户u_j在观看第i-1个视频

后点击的视频。因此可以将用户的观看序列

看成一条语句，将其中的每一个视频

看作一个词语，通过word2vec训练之后，可以使相似的视频聚集到特征空间中相近的位置，这些相似的视频可以一定程度上表示用户对兴趣偏好。提取用户当前点击视频的embedding向量(记为

)，用于最后的预测。

在word2vec预处理中，首先选择CBOW模型，根据窗口中上下文词语

对中心词

进行预测从而达到对词向量训练的目的。首先将上下文词语的词向量求和取平均得到语境向量

使用负采样方法，通过最大化中心词预测的概率实现对词向量及网络参数的预训练。每个词语被选为负样本的概率计算公式为：

其中，V为语料库中出现的全部视频集合。

202、对于数据集中的每个视频的标题分量

(第i个视频的标题分量)，首先加载数据，将句子分割成词表示，同时去除低频词和停用词，用空格区分不同词，用换行符区分不同句子。先将其输入预训练的CBOW模型中，将句子中的每个词语用一个8维向量表示，用一个二维矩阵

表示一个句子，其中，

表示第v_i个视频的标题句子中第j个词语的8维向量表示，矩阵的行数m代表标题句子中包含m个词语。矩阵的每一行对应一个8维词向量，矩阵的行数对应句子的长度。

将句子矩阵

输入textcnn中进行卷积操作，利用不同长度的卷积核提取标题中不同范围内的多个局部特征，分别经过最大池化操作后，将不同卷积核提取的特征值拼接得到标题的特征向量，记作

203、对于数据集中的任意一个视频v_i，使用多媒体处理工具ffmpeg，按照固定间隔的方式提取视频的关键帧。

204、对于数据集中的每个视频，根据步骤203提取的视频关键帧，将视频片段依次输入到已在ImageNet数据集(140万张标记图像，1000个不同的类别)预训练的VGG16网络中，分别经过多次卷积-池化层，用不同的卷积核提取图像的不同内容信息，提取最后一个池化层的输出作为图像的特征向量，将同一个视频的不同图像特征向量进行平均，作为该视频的图像分量特征，记作

假设每个视频包含k个关键帧，分别经过VGG16网络提取特征，经过最大池化层后得到k个特征向量，分别为

则经过求和取平均后的关于视频的图像特征向量为

205、对于数据集中的每个视频v_i，根据步骤202，步骤203得到该条记录对应的视频标题特征

和视频图像特征

将视频标题特征

和视频图像特征

进行外积运算，得到矩阵M，将矩阵M进行行方向上的平均运算，得到标题向量和图像向量的融合信息，即关于视频的特征向量，记作

矩阵M计算公式为：

其中

表示

的转置。

将矩阵按照行方向上进行平均计算的公式为：

其中，M_i表示矩阵M的第i行。

206、对于用户集U中的任意一个用户u_j，根据步骤1中得到的用户特征向量

以及步骤205中得到的候选视频的特征向量

通过计算两个向量之间的余弦相似度判断用户喜欢该视频的概率。分别计算用户u_j对于候选视频集中所有的视频的余弦相似度，将其从大到小排序，选出相似度最高的视频推荐给用户，余弦相似度计算公式为：

其中，

为用户集中第j个用户u_j的特征向量；

为视频集中第i个用户v_i的特征向量；

为向量

的第k个分量；

为向量

的第k个分量。

具体来说是从多模态角度深度挖掘视频内容特征，同时分析用户的兴趣偏好，并基于此为用户推荐相关视频的视频推荐方法。

本发明通过综合考虑视频标题、图像的内容信息，消除视频标题标签与视频的具体内容不匹配的影响，同时通过对用户历史观看记录的分析，深度挖掘用户的个人兴趣偏好，并且及时捕捉随着时间的推移用户兴趣的转移。最后通过分析目标用户和候选集中视频之间的相似度，将相似度最高的视频推荐给目标用户，以达到提升推荐效果的目的。

一种基于多模态的视频推荐系统，所述系统包括：

第一获取模块：用于根据用户已经观看的视频序列获取用户行为特征向量；

第二获取模块：用于获取候选视频集中候选视频的视频标题特征向量；

筛选模块：用于对候选视频集中候选视频进行图像筛选，得到候选视频对应的关键图像帧；

提取模块：用于将所有关键图像帧输入VGG16网络中，提取对应的图像特征向量；

融合模块：用于将视频标题特征向量和图像特征向量进行特征融合，得到多个视频特征向量；

计算模块：用于计算用户行为特征向量和视频特征向量的余弦相似度；

推荐模块：用于根据余弦相似度向用户推荐视频。

一种基于多模态的视频推荐系统，所述系统包括处理器和存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行上述所述方法的步骤。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述方法的步骤。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。