CN110769288A

CN110769288A - 一种视频冷启动推荐方法及系统

Info

Publication number: CN110769288A
Application number: CN201911087559.1A
Authority: CN
Inventors: 李文杰; 范俊; 张智伟; 顾湘余
Original assignee: HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co Ltd
Current assignee: HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-02-07

Abstract

本发明公开了一种视频冷启动推荐方法及系统，其中，推荐方法包括：S1、基于Inception网络、降维处理为新视频生成视频向量；S2、将所述视频向量存储在Faiss中；S3、采用用户最近观看的5个视频将其对应视频向量求和取均值作为用户向量，对Faiss进行索引；S4、为用户返回与用户向量距离小的视频向量所对应的视频。本发明将新视频截帧处理成多个图片，通过为每幅图片生成特征向量以生成视频向量，基于Faiss进行向量索引进行视频推荐，实现了视频的冷启动推荐，复杂度低，推荐效率高。

Description

一种视频冷启动推荐方法及系统

技术领域

本发明涉及内容推荐领域，具体涉及一种视频冷启动推荐方法及系统。

背景技术

随着各种应用的流行，企业能收集更多更全的用户数据，如何利用这些数据提高收入是各企业都会面临的问题。最常见的方式就是个性化推荐，特别是在电商、视频网站或其它的内容平台。个性化推荐的主要目标是将大量的标的物推荐给可能喜欢的海量用户，例如为用户推荐感兴趣的视频。

任何的互联网内容平台，其大量的标的物及用户都是不断增长变化的，推荐系统冷启动指的就是对于新注册的用户或者新入库的标的物,该怎么给新用户推荐标的物让用户满意，怎么将新标的物分发出去，推荐给喜欢它的用户。如果是新开发的产品，初期用户很少，用户行为也不多，常用的协同过滤、深度学习等依赖大量用户行为的算法不能很好的训练出精准的推荐模型,怎么让推荐系统很好的运转起来，让推荐变得越来越准确，这个问题就是系统冷启动。

现有的正对新入库的视频所进行的视频冷启动推荐主要包括基于标签的推荐及基于视频的文本等内容信息的推荐。基于标签的推荐需要知道该视频的标签，具体为：(1)通过技术或人工手段给视频打上标签；(2)根据用户的兴趣，给少量的用户推荐该视频；(3)根据反馈的结果，评估视频。基于视频的文本等内容信息的推荐具体为：(1)首先对文本进行分词；(2)将实体和一些其他重要的词组成关键词集合；(3)对关键词进行排名，计算每个关键词的权重，从而生成关键词向量；(4)通过向量之间的余弦相似度计算判断视频间的相似度；(5)给用户推荐和他历史上喜欢的视频内容相似的视频。

然而，基于标签的推荐中，机器学习预测标签的准确率和召回率不够，特别是一些低质量的视频，基于标签的推荐准确率和召回率极低。此外，人工打标签成本太高，每天几十万的发布视频量，还在不断的增加。基于视频的文本等内容信息的推荐中，视频的文本信息太少，很多视频发布没有文本信息，因此，为视频构建向量难度高；此外，处理文本分词流量慢，处理耗时，进行视频推荐的效率低。

因此，如何克服现有视频冷启动推荐的缺点，实现高效、低耗的新入库视频冷启动推荐是本领域亟待解决的问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种视频冷启动推荐方法及系统。本发明将新视频截帧处理成多个图片，通过为每幅图片生成特征向量以生成视频向量，基于Faiss进行向量索引进行视频推荐，实现了视频的冷启动推荐，复杂度低，推荐效率高。

为了实现以上目的，本发明采用以下技术方案：

一种视频冷启动推荐方法，包括：

S1、基于Inception网络、降维处理为新视频生成视频向量；

S2、将所述视频向量存储在Faiss中；

S3、采用用户最近观看的5个视频将其对应视频向量求和取均值作为用户向量对Faiss进行索引；

S4、为用户返回与用户向量距离小的视频向量所对应的视频。

进一步地，所述步骤S1具体为：

S1.1、对视频进行截帧处理，将视频分解成多个图片；

S1.2、将多个图片依次输入到Inception网络，为每帧图片生成D维特征向量；

S1.3、将每帧图片对应的特征向量组合生成N*D的2维矩阵，其中N为视频提取的帧数；

S1.4、将所述N*D的2维矩阵降维生成(2+K)*D的2维矩阵，其中，K<N；

S1.5、对所述(2+K)*D的2维矩阵采用主成分分析、白化降维。

进一步地，所述步骤S1.4具体为：

对N*D的2维矩阵提取1阶信息、2阶信息和序号统计信息，所述1阶信息指N*D的2维矩阵在列上的均值；所述2阶信息指N*D的2维矩阵在列上的方差；所述序号统计信息指N*D的2维矩阵在列上的前K大的值；其中，1阶信息、2阶信息均为D维的向量，序号统计信息为K*D的2维矩阵；将所述1阶信息、2阶信息和序号统计信息拼接起来，形成(2+K)*D的2维矩阵。

进一步地，所述Inception网络为从网上下载的训练好的模型。

进一步地，所述步骤S4包括：

计算最近用户观看的5个视频将其对应视频向量求和取均值作为用户向量与Faiss中存储的视频向量的距离，按照向量间的距离由小到大进行排序，返回排序前面一个或多个向量所对应的视频。

本发明还提出一种视频冷启动推荐系统，包括：

视频向量生成模块，用于基于Inception网络、降维处理为新视频生成视频向量；

存储模块，用于将所述视频向量存储在Faiss中；

索引模块，用于采用用户最近观看的5个视频将其对应视频向量求和取均值作为用户向量对Faiss进行索引；

推荐模块，用于为用户返回与所述用户向量距离小的视频向量所对应的视频。

进一步地，所述视频向量生成模块包括：

分解模块，用于对视频进行截帧处理，将视频分解成多个图片；

图片特征向量生成模块，用于将多个图片依次输入到Inception网络，为每帧图片生成D维特征向量；

初始视频向量生成模块，用于将每帧图片对应的特征向量组合生成N*D的2维矩阵，其中N为视频提取的帧数；

第一降维模块，将所述N*D的2维矩阵降维生成(2+K)*D的2维矩阵，其中，K<N；

第二降维模块，用于对所述(2+K)*D的2维矩阵采用主成分分析、白化降维。

进一步地，所述第一降维模块包括：

进一步地，所述Inception网络为从网上下载的训练好的模型。

进一步地，所述推荐模块包括：

与现有技术相比，本发明具有如下优点：

(1)本发明为新视频生成视频向量，基于视频间的相似度进行视频推荐，因此，所推荐的视频能够覆盖到包括新视频的全部发布视频，实现视频冷启动推荐，将新视频推荐给恰当的目标用户；

(2)本发明将新视频截帧处理成多个图片，通过为每幅图片生成特征向量以进一步生成视频向量，即使视频的文本信息少也能构建有效的视频向量；

(3)本发明通过对视频向量进行多次降维处理，最大限度保留视频特征的同时，减少了数据处理的复杂度。同时，对不同帧数的视频进行降维，实现了不同视频向量的维数一致；

(4)本发明根据视频曝光的次数对Faiss中的视频向量进行定期删除，避免Faiss的存储花销大，影响Faiss的性能。

(5)本发明利用网上训练好的Inception网络网络提取图片的特征向量，不需要额外构建网络模型，处理效率高；同时，将视频向量存储在Faiss中，基于Faiss中自带的向量函数进行运算，实现视频的快速召回与推荐。

附图说明

图1是实施例一提供的一种视频冷启动推荐的方法流程图；

图2是实施例二提供的一种视频冷启动推荐的系统结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

实施例一

如图1所示，本实施例提出了一种视频冷启动推荐方法，包括：

S1、基于Inception网络、降维处理为新视频生成视频向量；

为了实现视频冷启动推荐，本发明为新的视频生成相应的向量，以基于向量为用户进行视频推荐。如上所述，现有的视频向量构建过程中，通常需要对视频进行分词、计算关键词权重等，对于文本信息少的视频，难以根据文本信息构建视频向量，且分词等的处理效率低。由于视频由多帧图片组成，因此，本发明将为视频生成向量的问题转换成为多个生成图片向量的问题。可以对视频进行截帧处理，将视频分解成多个图片。同时截帧频率过快时，相邻帧之间特征变化不大，由此生成的多个图片向量没有意义，且会带来不必要的计算开销。因此，可以每一秒截一帧，防止相邻帧之间特征变化不大的问题，使每帧图片对视频的构建都具有其独特性。

现有技术中，通常采用卷积神经网络(Convolutional Neural Networks,CNN)进行图片特征向量的提取。获得高质量卷积神经网络最保险的做法就是增加网络的深度(层数)或者是其宽度(层核或者神经元数)，但是这里一般情况下会出现如下的缺陷：(1)参数太多，若训练数据集有限，容易过拟合；(2)网络越大计算复杂度越大，难以应用；(3)网络越深，梯度越往后穿越容易消失，难以优化模型。基于此，Google开发了Inception网络。目前Inception网络共有4个版本，本发明选用V3进行图片特征向量的提取。

Inception网络是由Google开发的一个非常深的卷积网络，它是在ImageNet上预先训练好的。这个模型的默认输入尺寸是299×299，有三个通道。将7x7分解成两个一维的卷积(1x7,7x1)，3x3也是一样(1x3,3x1)。这样的好处，既可以加速计算(多余的计算能力可以用来加深网络)，又可以将1个conv拆成2个conv，使得网络深度进一步增加，增加了网络的非线性，可以处理更多更丰富的空间特征，增加特征多样性。

本发明可以利用已有Inception V3网络对图片进行特征提取。不需要额外构建特征提取模型，处理效率高。具体地，可以直接从网上下载训练好的Inception V3网络，对视频进行截帧处理后，将对每一帧图片输入到下载的Inception V3网络，为每帧图片生成特征向量。

假设视频帧数据经过Inception V3网络提取特征后得到一个D维的向量，那么一个视频最终就可以用一个N*D的2维矩阵表示，其中N为视频提取的帧数。但是不同的视频提取的帧数量也不一样，为了保证最终每个视频的表示形式一致，就需要对2维矩阵进行处理。

对2维矩阵提取1阶、2阶和序号统计信息。1阶信息指矩阵在列上的均值，最终得到一个D维的向量；2阶信息指矩阵在列上的方差，也得到一个D维的向量；序号信息指矩阵在列上的前K大的值，最终得到了一个的K*D的2维矩阵。将这3种统计特征在列上拼接起来就得到一个新的定长矩阵(维度是(2+K)*D)，这样一个变长的视频特征矩阵就转换成了定长的统计特征矩阵。如下：

其中，

是指变长的视频特征矩阵在列上的均值形成的一个D维的向量，是指变长的视频特征矩阵在列上的方差形成的一个D维的向量，

是指变长的视频特征矩阵在列上的前K大的值形成的一个的K*D的2维矩阵。

得到定长的统计特征矩阵后，矩阵各维度数据仍可能是线性相关的，可能也含有噪声，因此，本发明利用主成分分析(Principle Components Analysis，PCA)对定长的统计特征矩阵进行进一步降维，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量。首先要对定长的统计特征矩阵数据进行零均值处理，然后求出协方差矩阵及其特征向量，最后计算特征向量与定长的统计特征矩阵的乘积，得到降维后的数据。

由于图片各相邻像素是相关的，所以用来图片的输入数据是冗余的，本发明通过白化(Whitening)降低输入的冗余性，并且每个特征具有相同的方差。在进行PCA处理后，维度之间的相关度变为0，然后我们对每个维度都除以那个维度的标准差，这样每个维度就具有单位方差了。由此，最终的视频向量构建完成。

S2、将所述视频向量存储在Faiss中；

为用户进行视频推荐过程中，主要包括召回和排序阶段，召回是从视频集中选取一部分作为候选集，基于用户向量和视频向量进行计算。然而，在视频召回过程中，可能需要召回大量的候选集，因此，对于单个用户的推荐，都可能需要进行大量的处理。例如，当推荐系统在召回阶段需要召回5000个视频候选集时，如果用户和视频的向量表示都是32维，则对于单个用户的单次推荐需要进行的运算处理为5000*32*32＝512万。如此大的向量计算量对于常规的索引不能承受。因此，本发明将用户向量、视频向量存储在Faiss中，基于Faiss中自带的向量函数进行运算，实现视频的快速召回。

Faiss由Facebook AI Research开发，是一个用于相似性搜索和密集向量聚类的高性能库，支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集的算法。因此，本发明将新视频生成的视频向量存储在Faiss中，利用Faiss自带的向量运算实现对视频的快速召回，推荐效率高。

本发明主要实现新视频的冷启动推荐，由于同一用户可能会对相似的视频感兴趣，因此，本发明将新视频推荐给观看过类似视频的用户。

当用户发送请求时，为用户推荐相应的视频，发送的请求可以为访问视频网站等。推荐过程中，采用最近观看的5个视频将其对应视频向量求和取均值作为用户向量对Faiss进行索引。具体地，当用户请求推荐时，根据用户最近有过互动行为的视频，求出用户向量后，去FAISS查找视频。

S4、为用户返回与所述用户向量距离小的视频向量所对应的视频。

如上所述，本发明为用户推荐与最近观看视频相似的视频。因此，获取到用户最近观看视频的向量后，计算最近观看的5个视频将其对应视频向量求和取均值作为用户向量与Faiss中存储的视频向量的距离，距离越小，说明与用户最近观看视频越相似，否则，越不相似。本发明不对向量之间的距离计算进行限定，可以为欧几里得距离、皮尔逊相关度等。获取到距离较小的视频向量后，将该向量对应的视频返回给用户。在为用户进行视频推荐时，可以为用户推荐距离最小的单个视频，也可以按照向量间的距离由小到大进行排序，范围排序前面几个的向量所对应的视频。

因此，本发明将视频向量存储在Faiss中，由于存储的视频向量包括新视频对应的视频向量，因此，在对视频进行索引时，包括了对新视频的索引，能够实现对视频的冷启动推荐。

此外，随着移动互联网的发展，人们上传视频也越来越方便，互联网上的视频文件存在爆发式增长。如果每个新视频的视频向量都存储在FAISS中，势必会造成Faiss的存储花销大，进一步影响Faiss的性能，向量间的处理效率下降。因此，本发明会对Faiss中的视频向量进行定期删除，如果视频曝光的次数太低，则对Faiss索引的视频进行删除。

实施例二

如图2所示，本实施例提出了一种视频冷启动推荐系统，包括：

其中，

是指变长的视频特征矩阵在列上的均值形成的一个D维的向量，

是指变长的视频特征矩阵在列上的方差形成的一个D维的向量，

存储模块，用于将所述视频向量存储在Faiss中；

为用户进行视频推荐过程中，主要包括召回和排序阶段，召回是从视频集中选取一部分作为候选集，基于用户向量和视频向量进行计算。然而，在视频召回过程中，可能需要召回大量的候选集，因此，对于单个用户的推荐，都可能需要进行大量的处理。例如，当推荐系统在召回阶段需要召回5000个视频候选集时，如果用户和视频的向量表示都是32大小，则对于单个用户的单次推荐需要进行的运算处理为5000*32*32＝512万。如此大的向量计算量对于常规的索引不能承受。因此，本发明将用户向量、视频向量存储在Faiss中，基于Faiss中自带的向量函数进行运算，实现视频的快速召回。

当用户发送请求时，为用户推荐相应的视频，发送的请求可以为访问视频网站等。推荐过程中，采用用户最近观看的5个视频将其对应视频向量求和取均值作为用户向量对Faiss进行索引。具体地，当用户请求推荐时，根据用户最近有过互动行为的视频，求出向量后，去FAISS查找视频。

由此可知，本发明提出的个性化推荐方法及系统，并不为每次用户的请求进行兴趣探索。而是通过计算概率随机数的方式进行随机探索。在避免视频推荐过程中推荐的内容类型固定问题的同时，仍能维持高的推荐效率；结合了用户本身特征和关系网好友特征去推荐，克服了现有的基于社交关系网推荐的方法中，仅依赖社交关系网，而没有考虑到自身特性的问题；同时可以与现有的日常召回算法结合，不需要额外增加系统开销，实现视频的快速召回；此外基于FM进行特征组合，构建用户、视频的特征向量，计算复杂度低，但效果有大大的提升；同时适用于在大规模稀疏特征应用环境下，泛化能力强；最后，本发明将用户向量、视频向量存储在Faiss中，基于Faiss中自带的向量函数进行运算，实现视频的快速召回。

由此可知，本发明提出的视频冷启动推荐方法及系统，为新视频生成视频向量，基于视频间的相似度进行视频推荐，因此，所推荐的视频能够覆盖到包括新视频的全部发布视频，实现视频冷启动推荐，将新视频推荐给恰当的目标用户；将新视频截帧处理成多个图片，通过为每幅图片生成特征向量以进一步生成视频向量，即使视频的文本信息少也能构建有效的视频向量；通过对视频向量进行多次降维处理，最大限度保留视频特征的同时，减少了数据处理的复杂度。同时，对不同帧数的视频进行降维，实现了不同视频向量的维数一致；本发明根据视频曝光的次数对Faiss中的视频向量进行定期删除，避免Faiss的存储花销大，影响Faiss的性能；利用网上训练好的Inception网络网络提取图片的特征向量，不需要额外构建网络模型，处理效率高；同时，将视频向量存储在Faiss中，基于Faiss中自带的向量函数进行运算，实现视频的快速召回与推荐。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频冷启动推荐方法，其特征在于，包括：

S1、基于Inception网络、降维处理为新视频生成视频向量；

S2、将所述视频向量存储在Faiss中；

2.根据权利要求1所述的视频冷启动推荐方法，其特征在于，所述步骤S1具体为：

S1.1、对视频进行截帧处理，将视频分解成多个图片；

S1.5、对所述(2+K)*D的2维矩阵采用主成分分析、白化降维。

3.根据权利要求2所述的视频冷启动推荐方法，其特征在于，所述步骤S1.4具体为：

4.根据权利要求2所述的视频冷启动推荐方法，其特征在于，所述Inception网络为google开源的训练好的模型。

5.根据权利要求2所述的视频冷启动推荐方法，其特征在于，所述步骤S4包括：

计算用户向量与Faiss中存储的视频向量的距离，按照向量间的距离由小到大进行排序，返回排序前面一个或多个向量所对应的视频。

6.一种视频冷启动推荐系统，其特征在于，包括：

存储模块，用于将所述视频向量存储在Faiss中；

推荐模块，用于为用户返回与用户向量距离小的视频向量所对应的视频。

7.根据权利要求6所述的视频冷启动推荐系统，其特征在于，所述视频向量生成模块包括：

8.根据权利要求7所述的视频冷启动推荐系统，其特征在于，所述第一降维模块包括：

9.根据权利要求7所述的视频冷启动推荐系统，其特征在于，所述Inception网络为google开源的训练好的模型。

10.根据权利要求7所述的视频冷启动推荐系统，其特征在于，所述推荐模块包括：