CN110446065A

CN110446065A - 一种视频召回方法、装置及存储介质

Info

Publication number: CN110446065A
Application number: CN201910713633.XA
Authority: CN
Inventors: 谭莲芝
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2019-11-12

Abstract

本发明实施例公开了一种视频召回方法、装置及存储介质，应用于信息处理技术领域。视频召回装置提取视频对中各个视频的多模态数据的特征信息，并将提取的特征信息进行融合得到各个视频的综合特征信息，并根据综合特征信息计算视频对中视频之间的相似度，进而再根据计算的相似度进行视频推荐。由于本实施例中在计算视频相似度的过程中，采用多模态数的特征信息是基于视频内容的特征，这样，可以视频召回装置可以是视频本身的内容来计算相似度，而不是根据视频的观看行为参数来计算，不会造成视频特征信息的缺失；且由于本实施例中采用基于视频内容的多个种类数据的特征，可以比较全面地描述一个视频，使得计算的相似度更准确。

Description

一种视频召回方法、装置及存储介质

技术领域

本发明涉及信息处理技术领域，特别涉及一种视频召回方法、装置及存储介质。

背景技术

视频召回是指当用户通过视频终端观看视频后，视频服务器从视频池中为用户的视频终端提供用户感兴趣的视频的方法，从而可以达到延长用户通过视频终端查看视频的时长。

现有的视频召回方法主要包括：根据视频池中目标视频的观看行为参数，与视频终端查看的历史视频的观看行为参数，确定目标视频与历史视频之间的相似度，进而再根据相似度确定目标视频是否需要推荐给视频终端。但是，对于视频池中新出现的目标视频，是没有观看行为参数的，采用现有的视频召回方法，不利于新出现的目标视频的推广。

发明内容

本发明实施例提供一种视频召回方法、装置及存储介质，实现了根据视频的多模态数据的特征信息进行视频推荐。

本发明实施例第一方面提供一种视频召回方法，包括：

提取视频对中各个视频分别对应的多模态数据的特征信息，所述视频对中包括两个视频，每个视频的所述多模态数据为所述视频的多种类型的基元数据，所述基元数据用于表示所述视频的内容；

将所述各个视频分别对应的多模态数据的特征信息进行融合，形成所述各个视频分别对应的综合特征信息；

根据所述各个视频分别对应的综合特征信息，计算所述视频对中视频之间的相似度；

根据所述计算的相似度，进行视频推荐。

本发明实施例第二方面提供一种视频召回装置，包括：

提取单元，用于提取视频对中各个视频分别对应的多模态数据的特征信息，所述视频对中包括两个视频，每个视频的所述多模态数据为所述视频的多种类型的基元数据，所述基元数据用于表示所述视频的内容；

融合单元，用于将所述各个视频分别对应的多模态数据的特征信息进行融合，形成所述各个视频分别对应的综合特征信息；

相似度计算单元，用于根据所述各个视频分别对应的综合特征信息，计算所述视频对中视频之间的相似度；

推荐单元，用于根据所述计算的相似度，进行视频推荐。

本发明实施例第三方面提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如本发明实施例第一方面所述的视频召回方法。

本发明实施例第四方面提供一种服务器，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如本发明实施例第一方面所述的视频召回方法。

可见，在本实施例的方法中，视频召回装置在进行视频推荐的过程中，提取视频对中各个视频的多模态数据的特征信息，并将提取的特征信息进行融合得到各个视频的综合特征信息，并根据综合特征信息计算视频对中视频之间的相似度，进而再根据计算的相似度进行视频推荐。由于本实施例中在计算视频相似度的过程中，采用多模态数的特征信息是基于视频内容的特征，这样，可以视频召回装置可以是视频本身的内容来计算相似度，而不是根据视频的观看行为参数来计算，不会造成视频特征信息的缺失；且由于本实施例中采用基于视频内容的多个种类数据的特征，可以比较全面地描述一个视频，使得计算的相似度更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频召回方法的示意图；

图2是本发明一个实施例提供的一种视频召回方法的流程图；

图3是本发明一个实施例中训练视频相似度模型的方法流程图；

图4是本发明应用实施例提供的一种视频召回方法的示意图；

图5是本发明应用实施例中视频终端显示的视频查看界面的示意图；

图6是本发明实施例提供的一种视频召回装置的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种视频召回方法，主要是视频召回装置所执行的方法，在一种实际应用中，视频召回方法可以应用于如图1所示的场景中，在这种情况下，视频召回装置具体为视频服务器，用户可以通过视频终端操作(比如观看或点赞等)视频服务器提供的视频，视频服务器则根据用户操作的视频，从视频池中选择某些与用户操作的视频之间具有较高相似度的视频，推荐给该用户对应的视频终端。

具体地，视频召回装置可以按照如下步骤实现视频推荐：

提取视频对中各个视频分别对应的多模态数据的特征信息，所述视频对中包括两个视频，每个视频的所述多模态数据为所述视频的多种类型的基元数据，所述基元数据用于表示所述视频的内容；将所述各个视频分别对应的多模态数据的特征信息进行融合，形成所述各个视频分别对应的综合特征信息；根据所述各个视频分别对应的综合特征信息，计算所述视频对中视频之间的相似度；根据所述计算的相似度，进行视频推荐。

由于本实施例中在计算视频相似度的过程中，采用多模态数的特征信息是基于视频内容的特征，这样，可以视频召回装置可以是视频本身的内容来计算相似度，而不是根据视频的观看行为参数来计算，不会造成视频特征信息的缺失；且由于本实施例中采用基于视频内容的多个种类数据的特征，可以比较全面地描述一个视频，使得计算的相似度更准确。

本发明实施例提供一种视频召回方法，主要是上述的视频召回装置所执行的方法，流程图如图2所示，包括：

步骤101，提取视频对中各个视频分别对应的多模态数据的特征信息，视频对中包括两个视频，每个视频的多模态数据为视频的多种类型的基元数据，基元数据用于表示视频的内容。

可以理解，用户终端可以操作视频终端，使得视频终端向视频召回装置发起视频召回的流程，比如用户点击视频终端显示的视频刷新按钮，这样，视频终端会向视频召回装置发起视频请求，则视频召回装置会发起本实施例的流程；或者，当视频终端启动视频应用程序，则视频终端会向视频召回装置发起视频请求，视频召回装置也会发起本实施例的流程。

在本实施例中，视频召回装置主要是将视频池中的目标视频，及用户通过视频终端操作的视频(即用户操作视频)这两个视频作为视频对，分别提取每个视频对应的多模态数据的特征信息。这里多模态数据是基于视频内容的多种类型的基元数据，而基元数据可以是视频的基元属性，比如视频标签和视频标题等，基元数据也可以是视频中包括的数据，比如视频封面和视频的关键帧等。因此，多模态数据具体可以包括但不限于如下多种类型的数据：视频封面，视频标签，视频标题，及视频的关键帧等，其中，视频标签是可以表示视频内容类型的信息，比如娱乐或体育等文本；视频封面可以是视频中能概括视频内容的某一帧图像；视频标题是表示视频内容的文本信息；视频视频的关键帧是视频中能表示视频基本内容的多帧图像。

且在本实施例中，视频的不同模态数据的特征信息是采用不同的方法进行提取的，比如，视频标签的特征信息采用隐狄利克雷分配模型(Latent Dirichlet Allocation，LDA)进行提取；视频标题的特征信息采用双向编码器表示(Bidirectional EncoderRepresentations from Transformers，BERT)的语言模型进行提取，或者，采用快速文本(fasttext)模型进行提取；视频封面的特征信息采用视觉集合组(Visual GeometryGroup，VGG)网络模型进行提取；视频关键帧的特征信息采用三维卷积网络(3DConvolutional，C3D)模型进行提取等。

步骤102，将各个视频分别对应的多模态数据的特征信息进行融合，形成各个视频分别对应的综合特征信息。

具体在对某一视频对应的多模态数据的特征信息进行融合时，可以将多模态数据的特征信息进行加权叠加，即将各模态数据的特征信息的加权值进行相加，得到该视频的综合特征信息。

步骤103，根据各个视频分别对应的综合特征信息，计算视频对中视频之间的相似度。

具体地，在计算相似度时，可以直接根据视频对中两个视频分别对应的综合特征信息，及相似度计算函数，直接计算相似度。其中，相似度计算函数可以是余弦夹角的函数等。

步骤104，根据上述步骤103计算的相似度，进行视频推荐。

具体地，一种情况下，如果视频对中包括视频池中的目标视频和用户通过视频终端操作的用户操作视频，则视频召回装置会在当目标视频与用户操作视频之间的相似度大于阈值，将目标视频的信息发送给视频终端进行显示，从而实现了视频推荐。进一步地，针对多个视频对，每个视频对中都包括某一用户的用户操作视频及视频池中的目标视频，视频召回装置在进行视频推荐时，可以将基于多个视频对计算得到的相似度进行排序，将相似度较高的多个视频对中的目标视频推荐给用户的视频终端。

另一种情况下，视频召回装置也可以将各个视频的综合特征信息再结合视频的其它参数，比如用户行为参数等，进行视频推荐。其中，用户行为参数是指一个视频的用户操作信息，比如用户点赞数，用户观看数，及用户评论数等

具体地，视频召回装置可以先根据上述计算的相似度，从视频池的目标视频中选出与用户操作视频之间的相似度较高的目标视频，作为视频候选池，再将视频候选池中的目标视频根据用户行为参数进行排序，比如，可以根据用户操作次数，或者根据用户观看(或点赞或评论)次数进行排序，并将视频候选池中排在前面的多个目标视频推荐给视频终端。

需要说明的是，如果上述步骤101到103可以通过视频相似度模型来实现，而视频相似度模型可以通过一定的训练方法得到，当训练好视频相似度模型后，视频召回装置可以将视频相似度模型的运行逻辑预置到视频召回装置中。具体地，在一个具体的实施例中，视频召回装置可以按照如下步骤来训练视频相似度模型，流程图如图3所示，包括：

步骤201，确定视频相似度的初始模型，该视频相似度的初始模型用于执行上述步骤101到103的步骤，具体执行上述提取特征信息、形成综合特征信息及计算相似度的步骤。

可以理解，在确定视频相似度的初始模型时，视频召回装置会确定视频相似度的初始模型所包括的多层结构和各层机构中固定参数的初始值，具体包括上述特征提取模块和相似度计算模块，其中，特征提取模块用于提取各个样本视频的多模态数据的特征信息，并进行融合得到各个样本视频的综合特征信息；相似度计算模块用于根据特征提取模块得到的各个样本视频的综合特征信息，计算各个样本视频对中两个样本视频之间的相似度。

其中，固定参数是指视频相似度的初始模型中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如权重，角度等参数。

步骤202，确定训练样本，训练样本中包括多个样本视频对，每个样本视频对中包括两个样本视频，及两个样本视频之间的相似度。

步骤203，通过视频相似度的初始模型分别计算各个样本视频对中两个样本视频之间的相似度。

具体地，通过视频相似度的初始模型中的特征提取模块先提取各个样本视频的多模态数据的特征信息，然后将各个样本视频的多模态数据的特征信息进行融合得到综合特征信息；相似度计算模块用于根据特征提取模块提取的综合特征信息，计算各个样本视频对中两个样本视频之间的相似度。

步骤204，根据上述步骤203中视频相似度的初始模型计算的相似度，及训练样本中的标注信息，调整视频相似度的初始模型中的固定参数值，以得到最终的视频相似度模型。

具体地，视频召回装置会先根据上述步骤203中视频相似度的初始模型计算的相似度，及训练样本中的标注信息，计算与视频相似度的初始模型相关的损失函数，该损失函数用于指示视频相似度的初始模型计算各个样本视频对中样本视频之间相似度的误差。

这里，损失函数包括：用于表示根据视频相似度的初始模型确定的各个样本视频对中两个样本视频的相似度，与训练样本中各个样本视频对的相似度之间的差别。这些误差的数学表现形式通常使用铰链损失函数(hingeloss)来建立损失函数，而视频相似度模型的训练过程就是需要尽量减少上述误差的值，该训练过程是通过反向传播求导以及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的视频相似度的初始模型中固定参数的参数值，并使得上述损失函数的计算值降至最低。

因此，在计算得到损失函数后，视频召回装置需要根据计算的损失函数调整视频相似度的初始模型中的固定参数值，以得到最终的视频相似度模型。具体地，当计算的损失函数的函数值较大时，比如大于预置的值，则需要改变固定参数值，比如将某个权重的权重值减小等，使得按照调整后的固定参数值计算的损失函数的函数值减小。

需要说明的是，上述步骤203到204是通过视频相似度的初始模型计算得到相似度，并根据计算的相似度对视频相似度的初始模型中的固定参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤203到204，直到对固定参数值的调整满足一定的停止条件为止。

因此，视频召回装置在执行了上述实施例步骤201到204之后，还需要判断当前对固定参数值的调整是否满足预置的停止条件，当满足时，则结束流程；当不满足时，则针对调整固定参数值后的视频相似度的初始模型，返回执行上述步骤203到204。

其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值，即调整的固定参数值达到收敛；及对固定参数值的调整次数等于预置的次数等。

以下以一个具体的应用实例来说明本发明的视频召回方法，在本实施例中视频召回装置具体为视频服务器，视频召回方法的流程图如图4所示，包括：

步骤301，用户操作视频终端，使得视频终端向视频服务器发送视频请求。

例如图5所示为视频终端显示的视频查看界面，在视频查看界面包括视频服务器推荐的多个视频列表，各个视频列表中包括多个视频的信息，比如，比如“关注”、“体育”、“娱乐”、“社会”和“科学”这些分类的视频列表，对于“关注”这个分类的视频列表可以包括视频1到视频n的标题。

在视频查看界面还包括及“首页”和“我的”按钮，当用户点击“我的”按钮，视频终端可以显示该用户的用户信息等；当用户点击“首页”按钮，或者，在该视频查看界面执行下拉操作，则视频终端会向视频服务器发送视频请求，并执行如下步骤302到306。

步骤302，视频服务器接收到视频请求后，视频服务器会确定该用户的用户操作视频，具体为该用户通过视频终端查看、评论及点赞等的视频。这样，视频服务器会针对各个用户操作视频，执行如下步骤303到306。

步骤303，视频服务器将视频池中的每个目标视频与用户操作视频分别组成多个视频对，提取视频对中各个视频分别对应的多模态数据的特征信息。

具体地，视频服务器可以采用但不限于如下的方法对各个视频进行特征提取：

(1)视频标签的特征信息可以采用LDA模型进行提取，可以得到2048个主题，每个主题会对应到一维的向量。

具体地，视频服务器可以得到目标视频的标签的LDA向量，及用户操作视频的标签的LDA向量。

(2)视频标题的特征信息可以采用BERT模型或进行提取fasttext模型进行提取。

对于fasttext模型，可以视频标题使用分词器进行分词，比如，视频标题“脑洞大开非人哉”，分完词是“脑洞、大开、非、人和哉”，将分词后的数据使用fasttext工具，得到fasttext向量。对于BERT模型，可以不用分词器对视频标题进行分词，而是直接输出BERT向量。

这样，视频服务器可以提取得到目标视频的标题的fasttext向量和/或BERT向量，及用户操作视频的标题的fasttext向量和/或BERT向量。

(3)视频封面的特征信息采用VGG网络进行提取。

封面提取VGG网络的输出是指提取视频的首帧作为封面，一般来说观看视频时会在首帧停顿1s左右，所以使用VGG网络提取视频封面特征是指直接用VGG网络去预测封面的图像特征。这样，视频服务器可以得到目标视频中某一视频帧为封面，且得到该视频帧的VGG向量；及得到用户操作视频中某一视频帧为封面，且得到该视频帧的VGG向量。

(4)视频关键帧的特征信息采用C3D网络模型进行提取，可以提取视频中的5帧或10帧图像，并分别提取这些关键帧图像的特征向量，并将这些关键帧图像的特征向量连接起来，即为视频关键帧的特征信息。

这样，视频服务器可以得到目标视频中的关键帧，且得到这些关键帧的特征向量；及得到用户操作视频中的关键帧，且得到这些关键帧的特征向量。

步骤304，视频服务器将各个视频分别对应的多模态数据的特征信息进行融合，形成各个视频的综合特征信息。

步骤305，视频服务器根据各个视频的相似度，计算各个视频对中两个视频之间的相似度，这样，一个视频对可以得到一个相似度。

步骤306，视频服务器可以对多个视频对的相似度进行排序，选取相似度大于某一阈值，且相似度较高的多个视频对中的目标视频，并将选取的目标视频的信息以视频列表的形式发送给视频终端。

需要说明的是，上述步骤303中提取视频的多模态数据的特征信息时，可以采用多种方式进行提取，且可以通过一定的参数对各种方式提取的特征信息进行衡量，从而可以确定通过哪种方式提取的特征信息计算的相似度更优。

比如，通过归一化折损累计增益(Normalized Discounted Cumulative Gain，NDCG)对多种方式提取的特征信息进行衡量，该NDCG越大，则采用的方式更优，具体如下表1所示，可知，提取的特征信息涉及的模态数据越多，则最终计算的相似度更优，提取的特征信息涉及的莫泰数据越少，则最终计算的相似度最差，比如采用LDA+fasttext+BERT+VGG的模型提取特征信息时，Ndcg值最大，则计算的相似度也更优，由此，可以说明，提取视频的越多方面数据的特征信息，最终融合得到的综合特征信息越能准确地描述一个视频，进而使得最终计算的相似度更准确。

表1

本发明实施例还提供一种视频召回装置，比如上述的视频服务器，其结构示意图如图6所示，具体可以包括：

提取单元10，用于提取视频对中各个视频分别对应的多模态数据的特征信息，所述视频对中包括两个视频，每个视频的所述多模态数据为所述视频的多种类型的基元数据，所述基元数据用于表示所述视频的内容。

这里多模态数据包括但不限于视频的如下多种类型的数据：视频标签，视频标题，视频封面，及视频的关键帧。

所述提取单元10，具体用于如果所述多模态数据包括视频标签，采用隐狄利克雷分配LDA模型提取所述视频标签的特征信息；如果所述多模态数据包括视频标题，采用双向编码器表示BERT的语言模型或采用快速文本模型提取所述视频标题的特征信息；如果所述多模态数据包括视频封面，采用视觉几何组VGG网络模型提取所述视频封面的特征信息；如果所述多模态数据包括视频的关键帧，采用三维卷积网络C3D模型提取所述视频的关键帧的特征信息。

融合单元11，用于将所述提取单元10提取的各个视频分别对应的多模态数据的特征信息进行融合，形成所述各个视频分别对应的综合特征信息；

相似度计算单元12，用于根据所述融合单元11融合形成的各个视频分别对应的综合特征信息，计算所述视频对中视频之间的相似度；

推荐单元13，用于根据所述相似度计算单元12计算的相似度，进行视频推荐。

该推荐单元13，具体用于当所述视频对中包括视频池中的目标视频和用户操作视频，且所述目标视频与用户操作视频之间的相似度大于阈值时，将所述目标视频的信息发送给视频终端进行显示。

进一步地，本实施例的视频召回装置还可以包括：

训练单元14，用于确定视频相似度的初始模型，所述视频相似度的初始模型用于执行所述提取特征信息，形成综合特征信息及计算相似度的步骤；确定训练样本，所述训练样本中包括多个样本视频对，所述样本视频对中包括两个样本视频，及所述两个样本视频之间相似度的标注信息；通过所述视频相似度的初始模型分别计算各个样本视频对中两个样本视频之间的相似度；根据所述视频相似度的初始模型计算的相似度，及所述训练样本中的标注信息，调整所述视频相似度的初始模型中的固定参数值，以得到最终的视频相似度模型。这样，上述提取单元10、融合单元11和相似度计算单元12可以按照训练单元14训练的视频相似度模型计算视频对中两个视频之间的相似度。

该训练单元14，还用于当对所述固定参数值的调整次数等于预置的次数时，或当当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

在本实施例的视频召回装置在进行视频推荐的过程中，提取单元10提取视频对中各个视频的多模态数据的特征信息，融合单元11将提取的特征信息进行融合得到各个视频的综合特征信息，相似度计算单元12根据综合特征信息计算视频对中视频之间的相似度，进而推荐单元13再根据计算的相似度进行视频推荐。由于本实施例中在计算视频相似度的过程中，采用多模态数的特征信息是基于视频内容的特征，这样，可以视频召回装置可以是视频本身的内容来计算相似度，而不是根据视频的观看行为参数来计算，不会造成视频特征信息的缺失；且由于本实施例中采用基于视频内容的多个种类数据的特征，可以比较全面地描述一个视频，使得计算的相似度更准确。

本发明实施例还提供一种服务器，其结构示意图如图7所示，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括视频召回的应用程序，且该程序可以包括上述视频召回装置中的提取单元10，融合单元11，相似度计算单元12，推荐单元13和训练单元14，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中储存的视频召回的应用程序对应的一系列操作。

服务器还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，和/或，一个或一个以上操作系统223，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由上述视频召回装置所执行的步骤可以基于该图7所示的服务器的结构。

本发明实施例还提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如上述视频召回装置所执行的视频召回方法。

本发明实施例还提供一种服务器，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如上述视频召回装置所执行的视频召回方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。

以上对本发明实施例所提供的视频召回方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频召回方法，其特征在于，包括：

根据所述计算的相似度，进行视频推荐。

2.如权利要求1所述的方法，其特征在于，所述多模态数据包括视频的如下多种类型的数据：视频标签，视频标题，视频封面，及视频的关键帧。

3.如权利要求2所述的方法，其特征在于，所述提取视频对中各个视频分别对应的多模态数据的特征信息，具体包括：

如果所述多模态数据包括视频标签，采用隐狄利克雷分配LDA模型提取所述视频标签的特征信息；

如果所述多模态数据包括视频标题，采用双向编码器表示BERT的语言模型或采用快速文本模型提取所述视频标题的特征信息；

如果所述多模态数据包括视频封面，采用视觉几何组VGG网络模型提取所述视频封面的特征信息；

如果所述多模态数据包括视频的关键帧，采用三维卷积网络C3D模型提取所述视频的关键帧的特征信息。

4.如权利要求1所述的方法，其特征在于，所述视频对中包括视频池中的目标视频和用户操作视频，则所述根据所述计算的相似度，进行视频推荐，具体包括：

当所述目标视频与用户操作视频之间的相似度大于阈值时，将所述目标视频的信息发送给视频终端进行显示。

5.如权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

确定视频相似度的初始模型，所述视频相似度的初始模型用于执行所述提取特征信息，形成综合特征信息及计算相似度的步骤；

确定训练样本，所述训练样本中包括多个样本视频对，所述样本视频对中包括两个样本视频，及所述两个样本视频之间相似度的标注信息；

通过所述视频相似度的初始模型分别计算各个样本视频对中两个样本视频之间的相似度；

根据所述视频相似度的初始模型计算的相似度，及所述训练样本中的标注信息，调整所述视频相似度的初始模型中的固定参数值，以得到最终的视频相似度模型。

6.如权利要求5所述的方法，其特征在于，当对所述固定参数值的调整次数等于预置的次数时，或当当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值时，则停止对所述固定参数值的调整。

7.一种视频召回装置，其特征在于，包括：

推荐单元，用于根据所述计算的相似度，进行视频推荐。

8.如权利要求7所述的装置，其特征在于，

所述提取单元，具体用于如果所述多模态数据包括视频标签，采用隐狄利克雷分配LDA模型提取所述视频标签的特征信息；如果所述多模态数据包括视频标题，采用双向编码器表示BERT的语言模型或采用快速文本模型提取所述视频标题的特征信息；如果所述多模态数据包括视频封面，采用视觉几何组VGG网络模型提取所述视频封面的特征信息；如果所述多模态数据包括视频的关键帧，采用三维卷积网络C3D模型提取所述视频的关键帧的特征信息。

9.一种存储介质，其特征在于，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如权利要求1至6任一项所述的视频召回方法。

10.一种服务器，其特征在于，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如权利要求1至6任一项所述的视频召回方法。