CN112364204A

CN112364204A - 视频搜索方法、装置、计算机设备及存储介质

Info

Publication number: CN112364204A
Application number: CN202011264524.3A
Authority: CN
Inventors: 吴翔宇; 袁玮
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-02-12
Anticipated expiration: 2040-11-12
Also published as: CN112364204B

Abstract

本公开关于一种视频搜索方法、装置、计算机设备及存储介质，属于计算机领域。本公开通过分别提取第一视频的视频图像的图像特征以及描述信息的目标特征，再将图像特征和目标特征进行融合，以得到第一视频最终的视频特征，这一视频特征并不局限于关键词这一单一的维度，而能够充分表征出视频图像及描述信息多种维度上的相关特征，具有更加完备的特征表达能力，从而使得基于这一视频特征进行视频搜索时，能够搜索出更加相似的第二视频，使得视频搜索的准确率大大提升，且具有广泛的应用场景、通用性高。

Description

视频搜索方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种视频搜索方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术及终端设备的发展，用户可以在终端上随时随地浏览短视频。在视频推荐领域中，相似视频搜索是一个重要的技术手段，给定一个视频，从海量的视频库中检索出与该视频相似的目标视频，从而能够将这些检索到的目标视频推荐给正在浏览该视频的用户，达到持续向用户输出与用户兴趣相关内容的效果。

目前，在进行相似视频搜索的过程中，通常会利用关键词匹配这一技术，依据关键词这一文本的相关特征对视频名称进行索引，这样由于关键词通常在不同语境下具有不同含义，导致视频搜索准确率低、通用性差。

发明内容

本公开提供一种视频搜索方法、装置、计算机设备及存储介质，以提升视频搜索的准确率和通用性。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频搜索方法，包括：

基于第一视频的视频图像，获取所述视频图像的图像特征；

基于所述第一视频的描述信息，获取所述描述信息的目标特征；

对所述图像特征和所述目标特征进行融合，得到所述第一视频的视频特征；

基于所述第一视频的视频特征进行视频搜索，获取至少一个第二视频，所述至少一个第二视频的视频特征与所述第一视频的视频特征之间相似度高于相似阈值。

在一种可能实施方式中，所述描述信息包括所述第一视频的内容标签；

所述基于所述第一视频的描述信息，获取所述描述信息的目标特征包括：

获取所述内容标签的第一词向量序列；

将所述第一词向量序列输入第一特征提取网络，通过所述第一特征提取网络对所述第一词向量序列进行加权处理，输出所述内容标签的文本特征，所述第一特征提取网络用于提取输入标签的文本特征；

将所述内容标签的文本特征确定为所述描述信息的目标特征。

在一种可能实施方式中，所述描述信息包括所述第一视频的第一用户信息，所述第一用户信息包括所述第一视频的发布者的用户名或者用户介绍文本中至少一项；

获取所述第一用户信息的第二词向量序列；

将所述第二词向量序列输入第二特征提取网络，通过所述第二特征提取网络对所述第二词向量序列进行加权处理，输出所述第一用户信息的文本特征，所述第二特征提取网络用于提取输入信息的文本特征；

将所述第一用户信息的文本特征确定为所述描述信息的目标特征。

在一种可能实施方式中，所述描述信息包括所述第一视频的第二用户信息，所述第二用户信息包括所述第一视频的发布者的属性信息或者行为信息中至少一项；

将所述第二用户信息输入第三特征提取网络，通过所述第三特征提取网络对所述第二用户信息进行加权处理，输出所述第二用户信息的用户特征，所述第三特征提取网络用于提取输入信息的用户特征；

将所述第二用户信息的用户特征确定为所述描述信息的目标特征。

在一种可能实施方式中，所述对所述图像特征和所述目标特征进行融合，得到所述第一视频的视频特征包括：

将所述图像特征和所述目标特征输入多头特征融合网络，通过所述多头特征融合网络对所述图像特征和所述目标特征进行加权处理，输出所述视频特征，所述多头特征融合网络用于对输入特征进行融合。

在一种可能实施方式中，所述多头特征融合网络的训练过程包括：

将样本视频的样本图像特征和样本目标特征输入初始特征融合网络，输出所述样本视频的样本视频特征；

将所述样本视频特征输入分类网络，输出所述样本视频的预测标签；

基于所述样本视频的标注标签和所述预测标签，获取本次迭代过程的损失函数值，响应于所述损失函数值符合目标条件，停止训练，得到所述多头特征融合网络。

在一种可能实施方式中，所述将样本视频的样本图像特征和样本目标特征输入初始特征融合网络之前，所述方法还包括：

获取历史时间段内出现频次大于频次阈值的至少一个内容标签；

将与任一内容标签所对应的任一历史视频确定为一个样本视频，其中，所述样本视频的标注标签为所述任一内容标签。

在一种可能实施方式中，所述将与任一内容标签所对应的任一历史视频确定为一个样本视频之前，所述方法还包括：

从所述至少一个内容标签中，删除信息量小于信息量阈值的内容标签。

在一种可能实施方式中，所述基于所述第一视频的视频特征进行视频搜索，获取至少一个第二视频包括：

对多个备选视频中任一备选视频，获取所述任一备选视频的视频特征与所述第一视频的视频特征之间的内积；

按照内积从大到小的顺序对所述多个备选视频进行排序，将排序位于前目标位的备选视频确定为所述至少一个第二视频。

在一种可能实施方式中，所述基于第一视频的视频图像，获取所述视频图像的图像特征包括：

将所述视频图像输入图像特征提取网络，通过所述图像特征提取网络对所述视频图像进行卷积处理，输出所述图像特征，所述图像特征提取网络用于提取输入图像的图像特征。

根据本公开实施例的第二方面，提供一种视频搜索装置，包括：

第一获取单元，被配置为执行基于第一视频的视频图像，获取所述视频图像的图像特征；

第二获取单元，被配置为执行基于所述第一视频的描述信息，获取所述描述信息的目标特征；

融合单元，被配置为执行对所述图像特征和所述目标特征进行融合，得到所述第一视频的视频特征；

搜索获取单元，被配置为执行基于所述第一视频的视频特征进行视频搜索，获取至少一个第二视频，所述至少一个第二视频的视频特征与所述第一视频的视频特征之间相似度高于相似阈值。

所述第二获取单元被配置为执行：

获取所述内容标签的第一词向量序列；

所述第二获取单元被配置为执行：

获取所述第一用户信息的第二词向量序列；

所述第二获取单元被配置为执行：

在一种可能实施方式中，所述融合单元被配置为执行：

在一种可能实施方式中，所述装置还包括：

第三获取单元，被配置为执行获取历史时间段内出现频次大于频次阈值的至少一个内容标签；

确定单元，被配置为执行将与任一内容标签所对应的任一历史视频确定为一个样本视频，其中，所述样本视频的标注标签为所述任一内容标签。

在一种可能实施方式中，所述装置还包括：

删除单元，被配置为执行从所述至少一个内容标签中，删除信息量小于信息量阈值的内容标签。

在一种可能实施方式中，所述搜索获取单元被配置为执行：

在一种可能实施方式中，所述第一获取单元被配置为执行：

根据本公开实施例的第三方面，提供一种计算机设备，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行上述第一方面以及第一方面的可能实施方式中任一项的视频搜索方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时，使得计算机设备能够执行上述第一方面以及第一方面的可能实施方式中任一项的视频搜索方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括一条或多条指令，所述一条或多条指令可以由计算机设备的一个或多个处理器执行，使得计算机设备能够执行上述第一方面以及第一方面的可能实施方式中任一项的视频搜索方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过分别提取第一视频的视频图像的图像特征以及描述信息的目标特征，再将图像特征和目标特征进行融合，以得到第一视频最终的视频特征，这一视频特征并不局限于关键词这一单一的维度，而能够充分表征出视频图像及描述信息多种维度上的相关特征，具有更加完备的特征表达能力，从而使得基于这一视频特征进行视频搜索时，能够搜索出更加相似的第二视频，使得视频搜索的准确率大大提升，且具有广泛的应用场景、通用性高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频搜索方法的实施环境示意图；

图2是根据一示例性实施例示出的一种视频搜索方法的流程图；

图3是根据一示例性实施例示出的一种视频搜索方法的流程图；

图4是本申请实施例提供的一种第一特征提取网络的原理性示意图；

图5是本申请实施例提供的一种多头特征融合网络的训练流程图；

图6是根据一示例性实施例示出的一种视频搜索装置的逻辑结构框图；

图7是本公开实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

图1是根据一示例性实施例示出的一种视频搜索方法的实施环境示意图，参见图1，在该实施环境中可以包括至少一个终端101和服务器102，下面进行详述：

至少一个终端101用于浏览视频，该视频可以是短视频，也可以是点播视频，在该至少一个终端101中每个终端上都可以安装有应用程序，该应用程序可以是任一能够提供视频浏览服务的客户端，用户可以通过启动该应用程序来浏览视频，该应用程序可以是购物应用、外卖应用、旅行应用、游戏应用或者社交应用中至少一项，本申请实施例不对应用程序的类型进行具体限定。

该至少一个终端101通过有线或无线网络与服务器102进行通信连接。

服务器102也即是一种计算机设备，用于向该至少一个终端101提供视频推荐服务。服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一项。可选地，服务器102可以承担主要计算工作，该至少一个终端101可以承担次要计算工作；或者，服务器102可以承担次要计算工作，该至少一个终端101可以承担主要计算工作；或者，服务器102和该至少一个终端101之间采用分布式计算架构进行协同计算。

需要说明的是，该至少一个终端101中任一终端的设备类型可以包括：智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。例如，该任一终端可以是智能手机，或者其他手持便携式电子设备。以下实施例，以终端包括智能手机来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本公开实施例对终端的数量和设备类型不加以限定。

图2是根据一示例性实施例示出的一种视频搜索方法的流程图，参见图2，该视频搜索方法应用于计算机设备，下面以计算机设备为服务器为例进行说明。

在步骤201中，服务器基于第一视频的视频图像，获取该视频图像的图像特征。

在步骤202中，服务器基于该第一视频的描述信息，获取该描述信息的目标特征。

在步骤203中，服务器对该图像特征和该目标特征进行融合，得到该第一视频的视频特征。

在步骤204中，服务器基于该第一视频的视频特征进行视频搜索，获取至少一个第二视频，该至少一个第二视频的视频特征与该第一视频的视频特征之间相似度高于相似阈值。

本公开实施例提供的方法，通过分别提取第一视频的视频图像的图像特征以及描述信息的目标特征，再将图像特征和目标特征进行融合，以得到第一视频最终的视频特征，这一视频特征并不局限于关键词这一单一的维度，而能够充分表征出视频图像及描述信息多种维度上的相关特征，具有更加完备的特征表达能力，从而使得基于这一视频特征进行视频搜索时，能够搜索出更加相似的第二视频，使得视频搜索的准确率大大提升，且具有广泛的应用场景、通用性高。

在一种可能实施方式中，基于第一视频的视频图像，获取该视频图像的图像特征包括：

将该视频图像输入图像特征提取网络，通过该图像特征提取网络对该视频图像进行卷积处理，输出该图像特征，该图像特征提取网络用于提取输入图像的图像特征。

在一种可能实施方式中，该描述信息包括该第一视频的内容标签；

基于该第一视频的描述信息，获取该描述信息的目标特征包括：

获取该内容标签的第一词向量序列；

将该第一词向量序列输入第一特征提取网络，通过该第一特征提取网络对该第一词向量序列进行加权处理，输出该内容标签的文本特征，该第一特征提取网络用于提取输入标签的文本特征；

将该内容标签的文本特征确定为该描述信息的目标特征。

在一种可能实施方式中，该描述信息包括该第一视频的第一用户信息，该第一用户信息包括该第一视频的发布者的用户名或者用户介绍文本中至少一项；

获取该第一用户信息的第二词向量序列；

将该第二词向量序列输入第二特征提取网络，通过该第二特征提取网络对该第二词向量序列进行加权处理，输出该第一用户信息的文本特征，该第二特征提取网络用于提取输入信息的文本特征；

将该第一用户信息的文本特征确定为该描述信息的目标特征。

在一种可能实施方式中，该描述信息包括该第一视频的第二用户信息，该第二用户信息包括该第一视频的发布者的属性信息或者行为信息中至少一项；

将该第二用户信息输入第三特征提取网络，通过该第三特征提取网络对该第二用户信息进行加权处理，输出该第二用户信息的用户特征，该第三特征提取网络用于提取输入信息的用户特征；

将该第二用户信息的用户特征确定为该描述信息的目标特征。

在一种可能实施方式中，对该图像特征和该目标特征进行融合，得到该第一视频的视频特征包括：

将该图像特征和该目标特征输入多头特征融合网络，通过该多头特征融合网络对该图像特征和该目标特征进行加权处理，输出该视频特征，该多头特征融合网络用于对输入特征进行融合。

在一种可能实施方式中，该多头特征融合网络的训练过程包括：

将样本视频的样本图像特征和样本目标特征输入初始特征融合网络，输出该样本视频的样本视频特征；

将该样本视频特征输入分类网络，输出该样本视频的预测标签；

基于该样本视频的标注标签和该预测标签，获取本次迭代过程的损失函数值，响应于该损失函数值符合目标条件，停止训练，得到该多头特征融合网络。

在一种可能实施方式中，将样本视频的样本图像特征和样本目标特征输入初始特征融合网络之前，该方法还包括：

将与任一内容标签所对应的任一历史视频确定为一个样本视频，其中，该样本视频的标注标签为该任一内容标签。

在一种可能实施方式中，将与任一内容标签所对应的任一历史视频确定为一个样本视频之前，该方法还包括：

从该至少一个内容标签中，删除信息量小于信息量阈值的内容标签。

在一种可能实施方式中，基于该第一视频的视频特征进行视频搜索，获取至少一个第二视频包括：

对多个备选视频中任一备选视频，获取该任一备选视频的视频特征与该第一视频的视频特征之间的内积；

按照内积从大到小的顺序对该多个备选视频进行排序，将排序位于前目标位的备选视频确定为该至少一个第二视频。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是根据一示例性实施例示出的一种视频搜索方法的流程图，如图3所示，该视频搜索方法应用于计算机设备，以计算机设备为服务器为例进行说明，该实施例包括以下步骤。

在步骤301中，服务器将第一视频的视频图像输入图像特征提取网络，通过该图像特征提取网络对该视频图像进行卷积处理，输出该视频图像的图像特征。

其中，该图像特征提取网络用于提取输入图像的图像特征。

可选地，该视频图像包括该第一视频的一个或多个视频图像帧，示意性地，该视频图像是指第一视频的封面图像，或者，该视频图像是指该第一视频的任一关键图像帧，本申请实施例不对视频图像的选取原则进行具体限定。

在一些实施例中，该图像特征提取网络为残差网络，该残差网络包括多个残差卷积层，该多个残差卷积层中相邻的残差卷积层之间串联连接，且不相邻的残差卷积层之间可以基于残差结构进行跳跃连接(skip connection，通常也可以称之为short-cut)。

例如，在该多个残差卷积层中，可以每间隔一个残差卷积层进行一次跳跃连接，也可以每间隔多个残差卷积层进行一次跳跃连接，当然，还可以是所有不相邻的各个残差卷积层均进行跳跃连接，本发明实施例不对该多个残差卷积层的连接方式进行具体限定。示意性地，在残差网络中每间隔两个残差卷积层进行一次跳跃连接。

需要说明的是，当任意两个残差卷积层的输出图进行残差连接时，是将上述两个残差卷积层的输出图进行融合，这里的融合是指将该两个残差卷积层的输出图中对应位置的像素值直接相加，在另外一些实施例中，这里的融合还可以指将两个残差卷积层的输出图进行拼接(concat)。

在一些实施例中，服务器在基于图像特征提取网络获取图像特征时，调用该图像特征提取网络中的多个残差卷积层对该视频图像进行基于残差结构的卷积操作，将最后一个残差卷积层的输出图确定为该图像特征。这样能够通过残差网络充分提取到视频图像的隐含信息，从而使得图像特征具有更加完备的表达能力，以提升后续视频搜索的准确性。

在一个示例性场景中，该图像特征提取网络采用ResNet-50模型，ResNet-50模型的输入为第一视频的封面图像，通过ResNet-50模型对封面图像执行包括了50次卷积操作在内的一系列计算处理，最终输出一个512维的封面图像的图像特征。示例性地，ResNet-50模型的模型参数如下表1所示。

表1

在一些实施例中，该图像特征提取网络还可以是CNN(Convolutional NeuralNetworks，卷积神经网络)、TCN(Temporal Convolutional Network，时域卷积网络)等神经网络模型，本申请实施例不对图像特征提取网络的网络结构进行具体限定。

在上述步骤301中，提供了一种服务器基于第一视频的视频图像，获取该视频图像的图像特征的可能实施方式，在另一些实施例中，除了采用图像特征提取网络之外，服务器还可以采用一些传统的例如灰度处理、边缘提取、亮度提取等方式来获取该图像特征，本申请实施例不对图像特征的提取方式进行具体限定。

在步骤302中，服务器获取该第一视频的内容标签的第一词向量序列。

可选地，该内容标签俗称为“话题标签”，通常是带有“#”字符的文本描述信息，能够概括性地描述视频内容，内容标签能够广泛覆盖到各种不同形式、不同领域、不同兴趣的第一视频中，具有广泛的通用性，该第一视频对应于一个或多个内容标签，本申请实施例不对内容标签的数量进行具体限定。

可选地，该内容标签是指第一视频的发布者在发布第一视频时，为第一视频设置的内容标签(相当于一种文本描述信息)，可以视为一种经过了发布者进行人工标注的内容标签，可选地，该内容标签还可以是第一视频的观众在观看或评论第一视频时，为第一视频所添加的内容标签，同样可以视为一种经过了观众进行人工标注的内容标签。

在上述两种情况中，直接获取发布者或者观众所标注的内容标签，能够大大节约对第一视频进行人工标注的人力成本，在大数据场景下具有节约成本的重大意义，当然，也可以安排业务人员对各个第一视频的内容标签进行更加精准的人工标注，以提升内容标签的准确性，本申请实施例不对内容标签的获取方式进行具体限定。

在上述过程中，服务器可以利用N元(N-Gram)模型获取该内容标签的第一词向量序列，也即是说，服务器将该第一视频所对应的至少一个内容标签输入N-Gram模型，通过N-Gram模型对该至少一个内容标签进行处理，得到该至少一个内容标签的至少一个N-Gram特征向量，将该至少一个N-Gram特征向量所构成的序列确定为该第一词向量序列。可选地，上述N-Gram模型包括二元模型(Bi-gram)、三元模型(Tri-gram)等，本申请实施例不对N-Gram模型的类型进行具体限定。

在上述过程中，通过提取内容标签的N-Gram特征，这样能够通过第一词向量序列充分表征出内容标签中各个字符之间的关联性，有利于提升第一词向量序列的表达能力，从而提升后续视频搜索过程的准确性。

在一些实施例中，服务器还可以调用Word2Vec词向量模型对该至少一个内容标签进行嵌入(embedding)处理，得到该至少一个内容标签的至少一个embedding向量，将该至少一个embedding向量所构成的序列确定为该第一词向量序列。

在一些实施例中，服务器还可以对该至少一个内容标签进行独热编码(one-hot)，得到该至少一个内容标签的至少一个one-hot向量，将该至少一个one-hot向量所构成的序列确定为该第一词向量序列。

上述基于词向量模型或者one-hot编码的方式，能够减少服务器的计算量，简化获取第一词向量序列的流程，本申请实施例不对获取第一词向量序列的方式进行具体限定。

在步骤303中，服务器将该第一词向量序列输入第一特征提取网络，通过该第一特征提取网络对该第一词向量序列进行加权处理，输出该内容标签的文本特征。

其中，该第一特征提取网络用于提取输入标签的文本特征。

在一些实施例中，该第一特征提取网络包括至少一个隐藏层，服务器通过该至少一个隐藏层对该第一词向量序列进行加权处理，将最后一个隐藏层输出的特征确定为该内容标签的文本特征。

在上述过程中，通过第一特征提取网络来提取内容标签的文本特征，能够提升文本特征的表达能力，使得文本特征能够更加完善地反映出内容标签的语义内容，以提升后续视频搜索的准确性。

示意性地，该第一特征提取网络是一个FastText(快速文本)网络，该FastText网络包括一个输入层、一个隐藏层和一个输出层，在输入层中包括内容标签的第一词向量序列，将输入层中的第一词向量序列输入到该隐藏层中，通过该隐藏层对该第一词向量序列中的各个第一词向量进行叠加平均，输出一个平均向量，在输出层中利用softmax函数对该平均向量进行指数归一化，输出该内容标签的文本特征。

图4是本申请实施例提供的一种第一特征提取网络的原理性示意图，请参考图4，在第一特征提取网络400中，包括输入层401、隐藏层402和输出层403，在输入层401中包含第一词向量序列[x1，x2，x3，…，xn]，在隐藏层402中获取第一词向量序列中各个第一词向量的平均向量，在输出层403中对平均向量进行softmax处理，得到一个512维的内容标签的文本特征。

在一些实施例中，除了FastText模型之外，服务器还可以采用其他结构的文本处理模型作为该第一特征提取网络，包括但不限于：马尔科夫N元模型(Markov N-gram)、指数模型(Exponential Models)、决策树模型(Decision Tree Models)、循环神经网络(Recurrent Neural Network，RNN)等，本申请实施例不对第一特征提取网络的结构进行具体限定。

在步骤304中，服务器获取该第一视频的第一用户信息的第二词向量序列。

可选地，该第一用户信息包括该第一视频的发布者的用户名或者用户介绍文本中至少一项。换言之，第一用户信息是指与第一视频的发布者相关的文本描述信息。

在上述过程中，服务器可以利用N-Gram模型获取该第一用户信息的第二词向量序列，也即是说，服务器将该第一视频所对应的第一用户信息输入N-Gram模型，通过N-Gram模型对该第一用户信息进行处理，得到该第一用户信息的至少一个N-Gram特征向量，将该至少一个N-Gram特征向量所构成的序列确定为该第二词向量序列。可选地，上述N-Gram模型包括Bi-gram、三元模型Tri-gram等，本申请实施例不对N-Gram模型的类型进行具体限定。

在上述过程中，通过提取第一用户信息的N-Gram特征，这样能够通过第二词向量序列充分表征出第一用户信息中各个字符之间的关联性，有利于提升第二词向量序列的表达能力，从而提升后续视频搜索过程的准确性。

在一些实施例中，服务器还可以调用Word2Vec词向量模型对该第一用户信息进行embedding处理，得到该第一用户信息的至少一个embedding向量，将该至少一个embedding向量所构成的序列确定为该第二词向量序列。

在一些实施例中，服务器还可以对该第一用户信息进行one-hot编码，得到该第一用户信息的至少一个one-hot向量，将该至少一个one-hot向量所构成的序列确定为该第二词向量序列。

上述基于词向量模型或者one-hot编码的方式，能够减少服务器的计算量，简化获取第二词向量序列的流程，本申请实施例不对获取第二词向量序列的方式进行具体限定。

在步骤305中，服务器将该第二词向量序列输入第二特征提取网络，通过该第二特征提取网络对该第二词向量序列进行加权处理，输出该第一用户信息的文本特征。

其中，该第二特征提取网络用于提取输入信息的文本特征。

在一些实施例中，该第二特征提取网络包括至少一个隐藏层，服务器通过该至少一个隐藏层对该第二词向量序列进行加权处理，将最后一个隐藏层输出的特征确定为该第一用户信息的文本特征。

在上述过程中，通过第二特征提取网络来提取第一用户信息的文本特征，能够提升文本特征的表达能力，使得文本特征能够更加完善地反映出第一用户信息的语义内容，以提升后续视频搜索的准确性。

示意性地，该第二特征提取网络是一个FastText(快速文本)网络，该FastText网络包括一个输入层、一个隐藏层和一个输出层，在输入层中包括第一用户信息的第二词向量序列，将输入层中的第二词向量序列输入到该隐藏层中，通过该隐藏层对该第二词向量序列中的各个第二词向量进行叠加平均，输出一个平均向量，在输出层中利用softmax函数对该平均向量进行指数归一化，输出该第一用户信息的文本特征。

在一些实施例中，除了FastText模型之外，服务器还可以采用其他结构的文本处理模型作为该第二特征提取网络，包括但不限于：马尔科夫N元模型、指数模型、决策树模型、循环神经网络等，本申请实施例不对第二特征提取网络的结构进行具体限定。

在步骤306中，服务器将该第一视频的第二用户信息输入第三特征提取网络，通过该第三特征提取网络对该第二用户信息进行加权处理，输出该第二用户信息的用户特征。

其中，该第三特征提取网络用于提取输入信息的用户特征。

可选地，该第二用户信息包括该第一视频的发布者的属性信息或者行为信息中至少一项。可选地，该属性信息包括但不限于发布者的性别、年龄、职业、地理位置等用户画像内容，该行为信息包括但不限于发布者的点赞行为信息、收藏行为信息、关注行为信息、站内消费行为信息等，需要说明的是，该第二用户信息是指经过发布者充分授权所得的信息。

在一些实施例中，该第三特征提取网络是一个多层感知器(Multi-LayerPerceptron，MLP)，该多层感知器包括至少一个全连接层，服务器通过该至少一个全连接层对该第二用户信息进行加权处理，将最后一个全连接层所输出的特征确定为该第二用户信息的用户特征。

在上述过程中，通过第三特征提取网络来提取第二用户信息的用户特征，能够提升用户特征的表达能力，使得用户特征能够更加完善地反映出第二用户信息的语义内容，从用户画像的角度更加全面的刻画视频发布者的特征，以提升后续视频搜索的准确性。

在一个示例性场景中，该多层感知器包括3个全连接层，这三个全连接层的输出图尺寸如下表2所示。

表2

全连接层名称	输出图尺寸
		全连接层1	128
全连接层2	256
		全连接层3	512

在上述过程中，通过多层感知器能够将第二用户信息中的属性信息和行为信息进行充分的连接和融合，从而有利于提取到具有更强表达能力的用户特征，有利于提升后续视频搜索过程的准确性。在另一些实施例中，除了多层感知器之外，该第三特征提取网络还可以是深度神经网络(Deep Neural Networks，DNN)、CNN、RNN等，本申请实施例不对第三特征提取网络的结构进行具体限定。

在步骤307中，服务器将该内容标签的文本特征、该第一用户信息的文本特征或者该第二用户信息的用户特征中的至少一项确定为该第一视频的描述信息的目标特征。

可选地，该描述信息包括该第一视频的内容标签、该第一视频的第一用户信息或者该第一视频的第二用户信息中至少一项。

在上述步骤302-307中，提供了服务器基于该第一视频的描述信息，获取该描述信息的目标特征的一种可能实施方式，在一些实施例中，服务器也可以不执行上述步骤302-303，也即不获取内容标签的文本特征，或者，服务器也可以不执行上述步骤304-305，也即不获取第一用户信息的文本特征，或者，服务器也可以不执行上述步骤306，也即不获取第二用户信息的用户特征，从而能够简化获取目标特征的流程，节约获取目标特征的计算量，本申请实施例不对此进行具体限定。

在步骤308中，服务器将该图像特征和该目标特征输入多头特征融合网络，通过该多头特征融合网络对该图像特征和该目标特征进行加权处理，输出该第一视频的视频特征。

其中，该多头特征融合网络用于对输入特征进行融合。

在上述过程中，由于该目标特征包括内容标签的文本特征、第一用户信息的文本特征或者第二用户信息的用户特征中至少一项，因此，服务器可以通过该多头特征融合网络，分别获取该图像特征对应的第一注意力矩阵、该内容标签的文本特征对应的第二注意力矩阵、该第一用户信息的文本特征对应的第三注意力矩阵以及该第二用户信息的用户特征对应的第四注意力矩阵。

接下来，服务器可以将该图像特征与第一注意力矩阵按元素相乘，得到第一向量，将该内容标签的文本特征与第二注意力矩阵按元素相乘，得到第二向量，该第一用户信息的文本特征与第三注意力矩阵按元素相乘，得到第三向量，将该第二用户信息的用户特征与第四注意力矩阵按元素相乘，得到第四向量。将第一向量、第二向量、第三向量和第四向量进行拼接，即可得到该视频特征。

在上述过程中，通过多头注意力(Multi-Head Attention)机制来提取该视频特征，能够为每一种模态的特征都分配自身的注意力矩阵，最后集成经过加权后的各个向量，从而防止过拟合。

在上述步骤308中，提供了一种对该图像特征和该目标特征进行融合，得到该第一视频的视频特征的可能实施方式。在另一些实施例中，服务器还可以采用双线性汇合、求向量积、按元素相加、拼接等方式来进行特征融合，本申请实施例不对特征融合方式进行具体限定。

在一些实施例中，该多头特征融合网络的训练过程包括：将样本视频的样本图像特征和样本目标特征输入初始特征融合网络，输出该样本视频的样本视频特征；将该样本视频特征输入分类网络，输出该样本视频的预测标签；基于该样本视频的标注标签和该预测标签，获取本次迭代过程的损失函数值，响应于该损失函数值符合目标条件，停止训练，得到该多头特征融合网络。

在一些实施例中，该损失函数值可以采用下述公式进行计算：

其中，Loss表示损失函数值，是各个标注标签的one-hot编码值，取值为0或1，是多个预测标签各自对应的Softmax值。

上述获取样本视频的样本图像特征的方式与上述步骤301类似，这里不做赘述，上述获取样本视频的样本目标特征的方式与上述步骤302-307类似，这里不做赘述，上述获取样本视频的样本视频特征的方式与上述步骤308类似，这里不做赘述。

在上述过程中，利用分类网络(相当于一个分类器)可以用来监督初始特征融合网络所提取的样本视频特征是否能够准确表达出样本视频在各个方面的特征信息，而分类网络的监督信号则是样本视频的标注标签，通过计算标注标签与预测标签之间的误差，即可得到每次迭代过程的损失函数，从而迭代进行网络参数的调整。

需要说明的是，除了分类网络、初始特征融合网络两者可以协同训练之外，这两者还可以与上述图像特征提取网络、第一特征提取网络、第二特征提取网络以及第三特征提取网络进行协同训练，当然，也可以将图像特征提取网络、第一特征提取网络、第二特征提取网络以及第三特征提取网络训练完毕后，投入到分类网络及初始特征融合网络的训练过程中，本申请实施例不对此进行具体限定。

图5是本申请实施例提供的一种多头特征融合网络的训练流程图，请参考图5，在上游任务中，将样本视频的封面图像输入到图像特征提取网络501中，输出样本视频的样本图像特征，将样本视频的样本内容标签输入到第一特征提取网络502中，输出样本内容标签的样本文本特征，将样本视频的第一样本用户信息输入到第二特征提取网络503中，输出第一样本用户信息的样本文本特征，将样本视频的第二样本用户信息输入到第三特征提取网络504中，输出第二样本用户信息的样本用户特征，接下来将样本内容标签的样本文本特征、第一样本用户信息的样本文本特征、第二样本用户信息的样本用户特征获取为样本视频的样本目标特征，将样本图像特征和样本目标特征输入到多头特征融合网络505中，输出一个N维的embedding向量(也即样本视频特征)，将样本视频特征输入到分类网络506中，输出样本视频的预测标签。

需要说明的是，在一些实施例中，除了上述几个特征提取网络之外，还可以拓展出其他的特征提取网络来提取样本视频的音频特征等，使得多头特征融合网络具有更加丰富的输入特征种类，本申请实施例不对待融合的特征类型进行具体限定。

在一些实施例中，服务器可以通过下述方式筛选出样本视频：获取历史时间段内出现频次大于频次阈值的至少一个内容标签；将与任一内容标签所对应的任一历史视频确定为一个样本视频，其中，该样本视频的标注标签为该任一内容标签。

可选地，该历史时间段为当前时刻之前的任一历史时间段，比如过去的365天、过去的半年、过去的三个月、过去的一个月等，本申请实施例不对历史时间段的范围进行具体限定。

在上述过程中，通过出现频次来对内容标签进行筛选，能够筛选出一些热度较高、训练价值较大、具有更高应用意义的内容标签，接下来由于发布者在发布历史视频时输入的视频描述信息中天然会携带有一些内容标签，此时服务器可以从历史视频库中筛选出视频描述信息中携带这些内容标签的历史视频，从而构造一个数据集，这个数据集中各个样本视频对应的内容标签即可作为各个样本视频的标注标签，可选地，如果一个历史视频的视频描述信息中携带多个内容标签时，该多个内容标签均作为这一个历史视频所对应的标注标签。

在上述过程中，无需专门为样本视频人工标注出内容标签，从而节约了人工标注所带来的大量人力成本，且能够得到一个包含有海量数据、内容丰富的多标签数据集，有利于训练出性能更加良好的多头特征融合网络。

在一种可能实施方式中，服务器在构建数据集之前，还可以预先对内容标签进行二次筛选，也即是说，服务器从该至少一个内容标签中，删除信息量小于信息量阈值的内容标签。由于信息量较小的内容标签，通常是一部分没有明确主题的内容标签，这部分标签难以分类，会干扰到模型训练过程，因此通过信息量进行筛选，能够提升多头特征融合网络的训练效率。

在步骤309中，服务器基于该第一视频的视频特征进行视频搜索，获取至少一个第二视频，该至少一个第二视频的视频特征与该第一视频的视频特征之间相似度高于相似阈值。

在一些实施例中，服务器可以从历史视频库中获取多个备选视频，对多个备选视频中任一备选视频，获取该任一备选视频的视频特征与该第一视频的视频特征之间的内积；按照内积从大到小的顺序对该多个备选视频进行排序，将排序位于前目标位的备选视频确定为该至少一个第二视频。

在上述过程中，这种基于“最大内积”的视频搜索方式，能够大大提升获取到的相似视频(也即第二视频)的准确率，当然，在一些实施例中，服务器也可以基于最小欧式距离、最小余弦距离等方式来进行视频搜索，能够简化视频搜索过程的计算量，本申请实施例不对视频搜索算法进行具体限定。

在一些示例性场景中，基于第一视频的视频特征，搜索得到的各个第二视频，可以应用视频推荐场景中，也即向正在浏览第一视频的用户进行个性化的兴趣推荐，向该用户推荐各个第二视频，从而持续向用户输出可能感兴趣的内容，或者，还可以应用于负向视频打压场景，也即对一些负向的第一视频，快速准确地检索出相似的各个第二视频之后，对这些第二视频的发布者执行一定的打压措施，从而提升平台安全性，或者，还可以应用于视频内容理解场景，也即根据给定的第一视频，由机器快速准确地输出相似的各个第二视频，且视频特征作为机器对于第一视频的内容理解具象的向量表征，具有重大的现实意义。

图6是根据一示例性实施例示出的一种视频搜索装置的逻辑结构框图。参照图6，该装置包括第一获取单元601、第二获取单元602、融合单元603以及搜索获取单元604：

第一获取单元601，被配置为执行基于第一视频的视频图像，获取该视频图像的图像特征；

第二获取单元602，被配置为执行基于该第一视频的描述信息，获取该描述信息的目标特征；

融合单元603，被配置为执行对该图像特征和该目标特征进行融合，得到该第一视频的视频特征；

搜索获取单元604，被配置为执行基于该第一视频的视频特征进行视频搜索，获取至少一个第二视频，该至少一个第二视频的视频特征与该第一视频的视频特征之间相似度高于相似阈值。

本公开实施例提供的装置，通过分别提取第一视频的视频图像的图像特征以及描述信息的目标特征，再将图像特征和目标特征进行融合，以得到第一视频最终的视频特征，这一视频特征并不局限于关键词这一单一的维度，而能够充分表征出视频图像及描述信息多种维度上的相关特征，具有更加完备的特征表达能力，从而使得基于这一视频特征进行视频搜索时，能够搜索出更加相似的第二视频，使得视频搜索的准确率大大提升，且具有广泛的应用场景、通用性高。

在一种可能实施方式中，该第一获取单元601被配置为执行：

该第二获取单元602被配置为执行：

获取该内容标签的第一词向量序列；

将该内容标签的文本特征确定为该描述信息的目标特征。

该第二获取单元602被配置为执行：

获取该第一用户信息的第二词向量序列；

该第二获取单元602被配置为执行：

在一种可能实施方式中，该融合单元603被配置为执行：

在一种可能实施方式中，基于图6的装置组成，该装置还包括：

确定单元，被配置为执行将与任一内容标签所对应的任一历史视频确定为一个样本视频，其中，该样本视频的标注标签为该任一内容标签。

删除单元，被配置为执行从该至少一个内容标签中，删除信息量小于信息量阈值的内容标签。

在一种可能实施方式中，该搜索获取单元604被配置为执行：

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该视频搜索方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是本公开实施例提供的一种计算机设备的结构示意图，该计算机设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条程序代码，该至少一条程序代码由该处理器701加载并执行以实现上述各个实施例提供的视频搜索方法。当然，该计算机设备700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括至少一条指令的存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由终端中的处理器执行以完成上述实施例中视频搜索方法。可选地，上述存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory，只读存储器)、RAM(Random-AccessMemory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由终端的处理器执行，以完成上述各个实施例提供的视频搜索方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频搜索方法，其特征在于，包括：

基于第一视频的视频图像，获取所述视频图像的图像特征；

2.根据权利要求1所述的视频搜索方法，其特征在于，所述描述信息包括所述第一视频的内容标签；

获取所述内容标签的第一词向量序列；

3.根据权利要求1所述的视频搜索方法，其特征在于，所述描述信息包括所述第一视频的第一用户信息，所述第一用户信息包括所述第一视频的发布者的用户名或者用户介绍文本中至少一项；

获取所述第一用户信息的第二词向量序列；

4.根据权利要求1所述的视频搜索方法，其特征在于，所述描述信息包括所述第一视频的第二用户信息，所述第二用户信息包括所述第一视频的发布者的属性信息或者行为信息中至少一项；

5.根据权利要求1所述的视频搜索方法，其特征在于，所述对所述图像特征和所述目标特征进行融合，得到所述第一视频的视频特征包括：

6.根据权利要求5所述的视频搜索方法，其特征在于，所述多头特征融合网络的训练过程包括：

7.根据权利要求6所述的视频搜素方法，其特征在于，所述将样本视频的样本图像特征和样本目标特征输入初始特征融合网络之前，所述方法还包括：

8.一种视频搜索装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求1至权利要求7中任一项所述的视频搜索方法。

10.一种存储介质，其特征在于，当所述存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时，使得计算机设备能够执行如权利要求1至权利要求7中任一项所述的视频搜索方法。