CN111046227B

CN111046227B - 一种视频查重方法及装置

Info

Publication number: CN111046227B
Application number: CN201911200231.6A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-04-07
Anticipated expiration: 2039-11-29
Also published as: CN111046227A

Abstract

本申请实施例公开了一种视频查重方法及装置，其中，视频查重方法包括：构建待处理视频的多模态特征向量；基于所述多模态特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频，得到候选视频集合；计算每一候选视频与所述待处理视频的相似度，得到相似度结果；根据所述相似度结果确定所述待处理视频是否通过查重检测。该方案可以在保证视频查重准确性的同时提高视频查重的效率。

Description

一种视频查重方法及装置

技术领域

本申请涉及通信技术领域，具体涉及一种视频查重方法及装置。

背景技术

随着网络视频平台的发展，短视频、小视频等数量急剧增加，用户经常推荐出重复的视频。重复的视频不仅干扰用户，造成用户的反感，同时对平台云端存储造成浪费，也会造成平台审核人力造成重复浪费。

目前，一般通过将待判定视频与视频库中的视频逐个比对的方式进行判重。然而，采用逐个比对的方式其计算量随视频库规模逐渐递增，而短视频库通常都在上亿量级，导致判重效率低下。

发明内容

本申请实施例提供一种视频查重方法及装置，可以提高视频查重的效率。

本申请实施例提供了一种视频查重方法，包括：

构建待处理视频的多模态特征向量；

基于所述多模态特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频，得到候选视频集合；

计算每一候选视频与所述待处理视频的相似度，得到相似度结果；

根据所述相似度结果确定所述待处理视频是否通过查重检测。

相应的，本申请实施例还提供了一种视频查重装置，包括：

向量构建单元，用于构建待处理视频的多模态特征向量；

筛选单元，用于基于所述多模态特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频，得到候选视频集合；

计算单元，用于计算每一候选视频与所述待处理视频的相似度，得到相似度结果；

确定单元，用于根据所述相似度结果确定所述待处理视频是否通过查重检测。

可选的，在本申请的一些实施例中，所述筛选单元包括：

计算子单元，用于计算所述待处理视频在每一模态上的注意力值，所述注意力值用于表示所述待处理视频在所述模态上的特征向量与所述待处理视频在其他模态上的特征向量之间的上下文关系；

融合子单元，用于融合所述待处理视频在每一模态上的注意力值，得到所述待处理视频的融合特征向量；

筛选子单元，用于基于所述融合特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频。

可选的，在本申请的一些实施例中，所述筛选子单元具体用于：

对所述融合特征向量进行降维处理，得到降维后特征向量；

基于已有索引信息和所述降维后特征向量，从所述视频库中筛选出相应数量的视频，作为与所述待处理视频相似的候选视频。

可选的，在本申请的一些实施例中，所述向量构建单元，还用于在基于所述多模态特征向量在视频库中进行近邻检索之前，对所述视频库中每一视频构建多模态特征向量；

所述视频查重装置还包括：

索引建立单元，用于基于每一视频构建多模态特征向量，采用KD树为视频库内的每一视频建立索引。

可选的，在本申请的一些实施例中，所述计算单元具体用于：

将所述候选视频和所述待处理视频分别输入孪生网络模型中的两个子网络模型，所述两个子网络模型分别提取相应视频的特征信息；

所述孪生网络模型的连接网络根据所述两个子网络模型分别提取的特征信息，计算所述候选视频和所述待处理视频之间的相似度。

可选的，在本申请的一些实施例中，所述向量构建单元具体用于：

从多个不同角度提取待处理视频的视频信息；

采用预设多模态深度表示模型对所述视频信息进行处理，以将所述视频信息转化为多模态特征向量。

可选的，在本申请的一些实施例中，所述视频信息包括视频标题、视频描述文本、音频和视频帧。

可选的，在本申请的一些实施例中，所述相似度结果包括多个相似度评估值；所述确定单元具体用于：

当所述多个相似度评估值中均未超过预设阈值时，确定所述待处理视频通过查重检测；

当所述多个相似度评估值中存在大于预设阈值的相似度评估值时，确定所述待处理视频未通过查重检测。

可选的，在本申请的一些实施例中，所述视频查重装置还包括：

更新单元，用于在确定所述待处理视频通过查重检测之后，将所述待处理视频更新至所述视频库中，并对所述待处理视频建立索引；

索引构建单元，用于当更新至所述视频库的视频数量达到指定数量时，重新对所述视频库构建索引信息。

本申请实施例，首先通过构建待处理视频的多模态特征向量，并基于多模态特征向量在视频库中进行近邻检索，筛选出与待处理视频相似的候选视频，得到候选视频集合。然后，计算每一候选视频与所述待处理视频的相似度，得到相似度结果，并根据相似度结果确定待处理视频是否通过查重检测。本方案通过使用视频多个维度的特征来对视频进行深度建模表示，借助近似近邻检索构建疑似重复候选队列，提升了疑似重复召回效率，为后续深度判重模型的计算降低搜索范围。利用使用判重模型进一步提升判重准确度，可以在保证视频查重准确性的同时提高视频查重的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的视频查重方法的一场景示意图；

图1b是本申请实施例提供的视频查重方法的另一场景示意图；

图1c是本申请实施例提供的视频查重方法的流程示意图；

图1d是本申请实施例提供的孪生网络模型的结构示意图；

图2a是本申请实施例提供的视频多模态特征深度表示模型结构图；

图2b是本申请实施例提供的视频重复判定模型结构图；

图3a是本申请实施例提供的视频查重装置的一结构示意图；

图3b是本申请实施例提供的视频查重装置的另一结构示意图；

图3c是本申请实施例提供的视频查重装置的又一结构示意图；

图4是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频查重方法、装置、服务器以及存储介质。

其中，该视频查重装置可以集成在服务器中，服务器可以包括一个独立运行的服务器或者分布式服务器，也可以包括由多个服务器组成的服务器集群，如图1a所示，比如，该视频查重装置集成在服务器中，首先，构建待处理视频的多模态特征向量，并基于多模态特征向量在视频库中进行近邻检索，筛选出与待处理视频相似的候选视频，得到候选视频集合。然后，计算每一候选视频与待处理视频的相似度，得到相似度结果。最后，根据相似度结果确定待处理视频是否通过查重检测。

例如，请参阅图1b，上传者向网络视频平台上传了一新视频，用户通过该网络视频平台的接口进入到该网络视频平台，然后，服务器对该新视频构建其多模态特征向量，通过近似最近邻检索的方式从视频推荐库中筛选出与该新视频相似的K个视频，并进一步精确计算新视频与K个视频之间的相似度。基于相似度结果对判断新视频是否重复推荐。若不是重复推荐，则将该新视频添加到视频推荐库中；若为重复推荐，则不入库。

以下分别进行详细说明，需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

一种视频查重方法，包括：构建待处理视频的多模态特征向量；基于所述多模态特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频，得到候选视频集合；计算每一候选视频与所述待处理视频的相似度，得到相似度结果；根据所述相似度结果确定所述待处理视频是否通过查重检测。

请参阅图1c，图1c是本申请实施例提供的视频查重方法的流程示意图。视频查重方法的具体流程可以如下：

101、构建待处理视频的多模态特征向量。

实际应用中，一个视频可以从不同的角度进行描述，例如视频标题的文字描述、表达视频主要内容的标题图、描述视频详细内容的视频帧、刻画视频表达的音频等。所使用的描述角度越丰富，对该视频的表示就越准确。也即，在一些实施例中，在构建待处理视频的多模态特征向量时，可以包括以下流程：

(11)从多个不同角度提取待处理视频的视频信息；

(12)采用预设多模态深度表示模型对所述视频信息进行处理，以将视频信息转化为多模态特征向量。

具体的，该视频信息可以包括视频标题、视频标签、视频描述文本、音频和视频帧中的任意组合。利用以上不同模态的描述，可提取到该视频的多模态特征向量，如文本特征向量、音频特征向量及图像特征向量等等。

在本实施例中，需预先构建视频多模态特征深度表示模型，以利用该模型对待处理视频进行多模态特征向量的提取。具体的，可基于已有的视频类别标注，通过使用视频的多维度特征训练原始的类别分类模型，将该分类模型分类网络层前一层的隐藏层表示作为视频的多模态深度表示。然后，经过原始视频类别分类模型的训练，使模型具备构建视频多模态深度表示的能力。

在本实施例中，该分类模型可以为图卷积神经网络模型，其可以根据实际应用的需求进行设定，例如，该图卷积神经网络模型可以包括四个卷积层和一个全连接层。

卷积层：主要用于对输入的图像(比如拓扑结构图)进行特征提取，其中，卷积核大小可以根据实际应用而定。可选的，为了降低计算的复杂度，提高计算效率，在本实施例中，这四层卷积层的卷积核大小可以都设置为(3，3)，激活函数均采用“relu(线性整流函数，Rectified Linear Unit)”，而padding(padding，指属性定义元素边框与元素内容之间的空间)方式均设置为“same”，“same”填充方式可以简单理解为以0填充边缘，左边(上边)补0的个数和右边(下边)补0的个数一样或少一个。可选的，为了进一步减少计算量，还可以在第二至第四层卷积层中的所有层或任意1～2层进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(max pooling)或平均值(average pooling)等，为了描述方便，在本申请实施例中，将均以在第二层卷积层和第三次卷积层中进行下采样操作，且该下采样操作具体为max pooling为例进行说明。

需说明的是，为了描述方便，在本申请实施例中，将激活函数所在层和下采样层(也称为池化层)均归入卷积层中，应当理解的是，也可以认为该结构包括卷积层、激活函数所在层、下采样层(即池化层)和全连接层，当然，还可以包括用于输入数据的输入层和用于输出数据的输出层，在此不再赘述。

全连接层：可以将学到的特征映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定。与卷积层类似，可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(S型函数)。

例如，在训练样本集中选取任一标注视频作为当前训练样本，然后，将该当前训练样本作为输入并导入到基础网络模型中，预测当前训练样本的视频分类，紧接着，再获取当前训练样本标注的视频分类。需要说明的是，在实际训练过程中，训练样本预测的视频分类与训练样本标注的视频分类可能会不同，因此，需要调整初始网络模型的参数，直到所有的训练样本都训练完毕。

102、基于多模态特征向量在视频库中进行近邻检索，筛选出与待处理视频相似的候选视频，得到候选视频集合。

在本申请实施例中，需要预先对视频库中各视频的多模态深度表示构建ANN(Approximate Nearest Neighbor，近似最近邻检索)检索索引，以供待处理视频查询疑似近似候选视频。也即，在一些实施例中，在基于多模态特征向量在视频库中进行近邻检索之前，还可以包括：

对视频库中每一视频构建多模态特征向量，并基于每一视频构建多模态特征向量，采用KD树(k-dimensional tree)为视频库内的每一视频建立索引。

具体实施时，具体实施时，还可以采用哈希方法、矢量量化方法来构建视频库的近似近邻索引。

以矢量方法为例，其为将一个向量空间中的点用其中的一个有限子集来进行编码的过程。在矢量量化编码中，关键是码本的建立和码字搜索算法。在ANN近似最近邻搜索中，向量量化方法又以PQ(Product Quantization，乘积量化)最为典型。PQ乘积量化的核心思想是聚类，或者说具体应用到ANN近似最近邻搜索上，K-Means是PQ乘积量化子空间数目为1的特例。

在训练阶段，针对N个训练样本，假设样本维度为128维，将其切分为4个子空间，则每一个子空间的维度为32维，在每一个子空间中对子向量采用K-Means对其进行聚类，这样每一个子空间都能得到一个码本。这样训练样本的每个子段，都可以用子空间的聚类中心来近似，对应的编码即为类中心的ID。对于待编码的样本，将它进行相同的切分，然后在各个子空间里逐一找到距离它们最近的类中心，用类中心的ID来表示它们，即完成了待编码样本的编码。

在查询阶段，PQ同样在计算查询样本与dataset中各个样本的距离，只不过这种距离的计算转化为间接近似的方法而获得。

具体地，查询向量来到时，按训练样本生成码本的过程，将其同样分成相同的子段，然后在每个子空间中计算子段到该子空间中所有聚类中心的距离。在计算库中某个样本到查询向量的距离时，到距离池中取各个子段对应的距离即可。待所有子段对应的距离取出来后，将子段的距离求和相加，得到该样本到查询样本间的非对称距离。所有距离算好后，排序后即得到最终想要的结果。

在一些实施例中，步骤“基于多模态特征向量在视频库中进行近邻检索，筛选出与待处理视频相似的候选视频”，可以包括以下流程：

(21)计算待处理视频在每一模态上的注意力值，其中，所述注意力值用于表示待处理视频在模态上的特征向量与待处理视频在其他模态上的特征向量之间的上下文关系；

(22)融合待处理视频在每一模态上的注意力值，得到待处理视频的融合特征向量；

(23)基于融合特征向量在视频库中进行近邻检索，筛选出与待处理视频相似的候选视频。

具体的，可以将每个模态上注意力值相互拼接，得到拼接结果，作为多头注意力值，并输入至预先经过训练的前馈神经子网络，得到该前馈神经子网络的输出，作为待处理视频的融合特征。其中，前馈神经子网络用于将多头注意力映射至融合特征。

在一些实施例中，前馈神经子网络中可以包括前馈神经元。该前馈神经元用于将多头注意力值映射至待处理视频的残差，残差用于表示待处理视频的融合特征与多头注意力值的差值。在该实施例中，在得到前馈神经元的输出后，将该输出与多头注意力值进行元素级加法，得到待处理视频的融合特征。

在一些实施例中，在基于融合特征向量在视频库中进行近邻检索，筛选出与待处理视频相似的候选视频时，具体可以对融合特征向量进行降维处理，得到降维后特征向量，并基于已有索引信息和降维后特征向量，从视频库中筛选出相应数量的视频，作为与待处理视频相似的候选视频。

103、计算每一候选视频与待处理视频的相似度，得到相似度结果。

具体的，在从视频库中筛选出与待处理视频疑似重复的候选视频后，可进一步精确计算候选视频与待处理视频之间的相似度，以得到相似度结果。

本实施例中，计算视频相似度的方法可以有多种。具体实施时，可以利用孪生网络模型对视频对进行相似度的计算，也即，在一些实施例中，步骤“计算每一候选视频与所述待处理视频的相似度”，可以包括以下流程：

(31)将候选视频和待处理视频分别输入孪生网络模型中的两个子网络模型，两个子网络模型分别提取相应视频的特征信息；

(32)孪生网络模型的连接网络根据两个子网络模型分别提取的特征信息，计算该候选视频和待处理视频之间的相似度。

如图1d所示，该孪生网络模型具体可以包括两个子网络模型，这两个子网络模型接受不同的输入信息，并分别根据不同的输入信息输出一计算结果。且两个子网络模型之间可以连接到某一连接网络，该连接网络可以按照一定的计算策略将两个子网络模型对相应输入信息的处理结果结合起来，输出另一计算结果。其中，这两个子网络模型的结构相同且固定参数值是共享的，且连接网络可以是一个能量函数。

具体的，可以提取候选视频和待处理视频的特征信息，分别输入到两个子网络模型，这样，各个子网络模型会分别提取相应视频的特征信息，进行一定的处理并分别将处理结果输入到一个连接网络，这样连接网络可以根据两个视频分别对应的特征信息，计算出两个视频帧之间的相似度，并输出相似度。

104、根据相似度结果确定待处理视频是否通过查重检测。

其中，相似度结果包括多个相似度评估值。当多个相似度评估值中均未超过预设阈值时，确定待处理视频通过查重检测；当多个相似度评估值中存在大于预设阈值的相似度评估值时，确定待处理视频未通过查重检测。

在一些实施例中，在确定待处理视频通过查重检测之后，还可以将待处理视频更新至视频库中，以供后续推荐给用户观看。另外，还可对待处理视频建立索引，以供后续待处理视频的检索查询。

实际应用中，随着视频库中视频数目的增加其视频内容也将越发丰富，因此当更新至视频库的视频数量达到一定数量时，意味着视频库中的视频数据发生了较大的变化。此时，现有的索引方式可能将已经不再适用，因此，可以重新对视频库构建索引信息，以提升视频检索的准确性。

本申请实施例首先通过构建待处理视频的多模态特征向量，并基于多模态特征向量在视频库中进行近邻检索，筛选出与待处理视频相似的候选视频，得到候选视频集合。然后，计算每一候选视频与所述待处理视频的相似度，得到相似度结果，并根据相似度结果确定待处理视频是否通过查重检测。本方案通过使用视频多个维度的特征来对视频进行深度建模表示，借助近似近邻检索构建疑似重复候选队列，提升了疑似重复召回效率，为后续深度判重模型的计算降低搜索范围。利用使用判重模型进一步提升判重准确度，可以在保证视频查重准确性的同时提高视频查重的效率。

为进一步描述本申请提供的视频查重方法，以下将举例进一步详细说明。参考图2a和图2b，一种视频查重方法，具体流程可以如下：

(1)基于深度学习构建视频多模态表示

目前的视频库中已经存在大量的视频类别标注，类别如综艺、喜剧、武侠等。通过使用视频的多维度特征，训练初始类别分类模型，将该初始分类模型分类网络层前一层的隐藏层表示作为频的多模态深度表示，其网络结构参图2a。

当视频帧数较多时，可通过均匀抽帧的方式(比如20s视频段抽取一帧图片)对视频库中的样本视频抽帧处理，得到视频帧序列。然后，视频帧经过Resnet模型构建初步视频帧表示，多帧Resnet特征经过BiLSETm等时序模型对视频侧特征构建表示。文本侧特征可采用视频标题和视频描述文本，标题、描述词序列分别经过Transformer-Encoder模型构建Self-Attention表示。

然后，将视频图像特征表示和视频文本表示拼接起来，拼接后的特征经过全连接网络，完成构建视频的多模态深度表示。基于构建的视频的多模态深度表示对该类别分类模型进行训练，使模型具备构建视频多模态深度表示的能力。其中，深度多模态特征表示为多维浮点数向量，如256位浮点型向量。

(2)对视频库多模态深度表示构建ANN检索索引

对视频库中的所有样本视频进行上述深度表示，然后构建ANN检索索引，可以使用开源的Annoy、Faiss等工具进行构建，其构建方法类似于构建KD树。此过程为离线构建构成过程，经过此步骤，为视频库构建好近邻检索索引，供后续为待判定视频查询疑似近似候选。

(3)使用待判定视频多模态深度表示查询ANN相似视频，构建疑似视频备选

对待判定视频，使用上述训练好的分类模型对其构建多模态深度特征表示。然后，使用此深度模型表示查询ANN近邻索引，返回索引中前k个深度表示相近的视频集，作为疑似重复视频，供候选重复判定模型进一步判定。

(4)对疑似视频备选经过判重模型进行判定

目前已经存在标注好的重复视频对，基于已经有重复的正样本数据，通过负采样的方法构造出不重复的视频对，以作为构建出重复视频训练数据集。然后，使用重复视频数据集训练重复判定模型(参考图2b)。

在本实施例中，视频重复判定模型采用孪生网络结构，以对待判定视频和上述召回的每个疑似重复视频进行模型判定。针对待判定视频和疑似重复视频，均使用上述多模态深度表示特征作为输入，将待判定视频和疑似重复视频的特征经过Max/min/avg进行特征多样化拼接。通过视频重复判定输出，在已经标注好的重复数据上进行训练，使模型具备判定两个视频是否重复的能力。其中，模型的输出可以是两个视频重复的概率。当待判定视频与上述召回的疑似重复视频的重复概率满足一定阈值的时候，判定该视频存在重复视频，可不必入库，或后续推荐逻辑不出重复的视频。

本申请实施例中，通过使用视频多个维度的特征来对视频进行深度建模表示，提升了视频表示质量；借助ANN近似近邻检索构建疑似重复候选队列，提升了疑似重复召回效率，为后续深度判重模型的计算降低搜索范围，而使用判重模型进一步提升判重准确度。通过本申请方案的实现，使得视频判重过程更加快速和精准，进而降低在推荐视频、视频相似度检测等场景下的视频重复情况，提升用户的视频观看体验，降低平台存储重复视频的空间代价、及平台审核重复视频的成本。

为便于更好的实施本申请实施例提供的视频查重方法，本申请实施例还提供一种基于上述视频查重装置。其中名词的含义与视频查重方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3a，图3a为本申请实施例提供的视频查重装置的结构示意图，其中该推荐装置可以包括向量构建单元301、筛选单元302、计算单元303以及确定单元304，具体可以如下：

向量构建单元301，用于构建待处理视频的多模态特征向量；

筛选单元302，用于基于所述多模态特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频，得到候选视频集合；

计算单元303，用于计算每一候选视频与所述待处理视频的相似度，得到相似度结果；

确定单元304，用于根据所述相似度结果确定所述待处理视频是否通过查重检测。

在本申请的一些实施例中，所述筛选单元302可以包括：

在本申请的一些实施例中，所述筛选子单元具体可以用于：

对所述融合特征向量进行降维处理，得到降维后特征向量；

在本申请的一些实施例中，所述向量构建单元301，还用于在基于所述多模态特征向量在视频库中进行近邻检索之前，对所述视频库中每一视频构建多模态特征向量；

参考图3b，视频查重装置300还可以包括：

索引建立单元305，用于基于每一视频构建多模态特征向量，采用KD树为视频库内的每一视频建立索引。

在本申请的一些实施例中，所述计算单元303具体可以用于：

可选的，在本申请的一些实施例中，所述向量构建单元301具体可以用于：

从多个不同角度提取待处理视频的视频信息；

可选的，在本申请的一些实施例中，所述相似度结果包括多个相似度评估值；所述确定单元304具体可以用于：

参考图3c，在本申请的一些实施例中，所述视频查重装置300还可以包括：

更新单元306，用于在确定所述待处理视频通过查重检测之后，将所述待处理视频更新至所述视频库中，并对所述待处理视频建立索引；

索引构建单元307，用于当更新至所述视频库的视频数量达到指定数量时，重新对所述视频库构建索引信息。

本申请实施例中，通过向量构建单元301构建待处理视频的多模态特征向量，并基于多模态特征向量在视频库中进行近邻检索；筛选单元302筛选出与待处理视频相似的候选视频，得到候选视频集合；计算单元303计算每一候选视频与所述待处理视频的相似度，得到相似度结果；确定单元304根据相似度结果确定待处理视频是否通过查重检测。本方案通过使用视频多个维度的特征来对视频进行深度建模表示，借助近似近邻检索构建疑似重复候选队列，提升了疑似重复召回效率，为后续深度判重模型的计算降低搜索范围。利用使用判重模型进一步提升判重准确度，可以在保证视频查重准确性的同时提高视频查重的效率。

相应的，本申请实施例还提供一种服务器，如图4所示，该服务器可以包括射频(RF，Radio Frequency)电路401、包括有一个或一个以上计算机可读存储介质的存储器402、输入单元403、显示单元404、传感器405、音频电路406、无线保真(WiFi，WirelessFidelity)模块407、包括有一个或者一个以上处理核心的处理器408、以及电源409等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路401可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器408处理；另外，将涉及上行的数据发送给基站。通常，RF电路401包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路401还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器402可用于存储软件程序以及模块，处理器408通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器408和输入单元403对存储器402的访问。

输入单元403可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元403可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器408，并能接收处理器408发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元403还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元404可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元404可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器408以确定触摸事件的类型，随后处理器408根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

服务器还可包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在服务器移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于服务器还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路406、扬声器，传声器可提供用户与服务器之间的音频接口。音频电路406可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路406接收后转换为音频数据，再将音频数据输出处理器408处理后，经RF电路401以发送给比如另一服务器，或者将音频数据输出至存储器402以便进一步处理。音频电路406还可能包括耳塞插孔，以提供外设耳机与服务器的通信。

WiFi属于短距离无线传输技术，服务器通过WiFi模块407可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块407，但是可以理解的是，其并不属于服务器的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器408是服务器的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器408可包括一个或多个处理核心；优选的，处理器408可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器408中。

服务器还包括给各个部件供电的电源409(比如电池)，优选的，电源可以通过电源管理系统与处理器408逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源409还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，服务器还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，服务器中的处理器408会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器408来运行存储在存储器402中的应用程序，从而实现各种功能：

构建待处理视频的多模态特征向量；基于所述多模态特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频，得到候选视频集合；计算每一候选视频与所述待处理视频的相似度，得到相似度结果；根据所述相似度结果确定所述待处理视频是否通过查重检测。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频查重方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频查重方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频查重方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频查重方法、装置、服务器以及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频查重方法，其特征在于，包括：

构建待处理视频的多模态特征向量；

计算所述待处理视频在每一模态上的注意力值，所述注意力值用于表示所述待处理视频在所述模态上的特征向量与所述待处理视频在其他模态上的特征向量之间的上下文关系；

融合所述待处理视频在每一模态上的注意力值，得到所述待处理视频的融合特征向量；

基于所述融合特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频，得到候选视频集合；

2.根据权利要求1所述的视频查重方法，其特征在于，所述基于所述融合特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频，包括：

对所述融合特征向量进行降维处理，得到降维后特征向量；

3.根据权利要求2所述的视频查重方法，其特征在于，在计算所述待处理视频在每一模态上的注意力值之前，还包括：

对所述视频库中每一视频构建多模态特征向量；

基于每一视频构建多模态特征向量，采用KD树为视频库内的每一视频建立索引。

4.根据权利要求1所述的视频查重方法，其特征在于，所述计算每一候选视频与所述待处理视频的相似度，包括：

5.根据权利要求1-4任一项所述的视频查重方法，其特征在于，所述构建待处理视频的多模态特征向量，包括：

从多个不同角度提取待处理视频的视频信息；

6.根据权利要求5所述的视频查重方法，其特征在于，所述视频信息包括视频标题、视频描述文本、音频和视频帧。

7.根据权利要求1-4任一项所述的视频查重方法，其特征在于，所述相似度结果包括多个相似度评估值；所述根据所述相似度结果确定所述待处理视频是否通过查重检测，包括：

8.根据权利要求7所述的视频查重方法，其特征在于，在确定所述待处理视频通过查重检测之后，还包括：

将所述待处理视频更新至所述视频库中，并对所述待处理视频建立索引；

当更新至所述视频库的视频数量达到指定数量时，重新对所述视频库构建索引信息。

9.一种视频查重装置，其特征在于，包括：

向量构建单元，用于构建待处理视频的多模态特征向量；

筛选单元，用于计算所述待处理视频在每一模态上的注意力值，融合所述待处理视频在每一模态上的注意力值，得到所述待处理视频的融合特征向量；基于所述融合特征向量在视频库中进行近邻检索，筛选出与所述待处理视频相似的候选视频，得到候选视频集合；所述注意力值用于表示所述待处理视频在所述模态上的特征向量与所述待处理视频在其他模态上的特征向量之间的上下文关系；

10.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至8任一项所述的视频查重方法中的步骤。

11.一种服务器，其特征在于，包括存储器和处理器；所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至8任一项所述的视频查重方法中的操作。