CN111581437A

CN111581437A - 一种视频检索方法及装置

Info

Publication number: CN111581437A
Application number: CN202010377993.XA
Authority: CN
Inventors: 李伟康; 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-08-25

Abstract

本申请涉及计算机技术领域，尤其涉及一种视频检索方法及装置，用于提高视频表示的质量，提升视频检索的准确性。方法包括：获取目标视频的图像信息、音频信息和文本信息；根据所述目标视频的图像信息，确定所述目标视频的图像特征；根据所述目标视频的音频信息，确定所述目标视频的音频特征；根据所述目标视频的文本信息，确定所述目标视频的文本特征；对所述目标视频的图像特征、音频特征和文本特征进行融合，获得所述目标视频的综合特征；根据所述综合特征，进行所述目标视频与对照视频的相似度检索。

Description

一种视频检索方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频检索方法及装置。

背景技术

在互联网、大数据稳定发展的时代背景下，多媒体信息的需求量呈现爆发式增长，如今视频平台都需要通过视频检索实现对视频资源的有效管理，例如，通过视频检索衡量两个视频之间的相似性，从而实现视频推荐、视频去重、盗版检测等视频管理业务。

目前常用的视频检索是基于视频相关的文本信息，如标题、标签、字幕等，将两个视频的文本进行对比，确定视频是否类似。这种方式对视频特征的描述能力较差，视频的表示质量低下，影响视频检索的性能。

发明内容

本申请实施例提供了一种视频检索方法及装置，用于提高视频表示的质量，提升视频检索的准确性。

根据本申请实施例的一方面，提供了一种视频检索方法，包括：

获取目标视频的图像信息、音频信息和文本信息；

根据所述目标视频的图像信息，确定所述目标视频的图像特征；

根据所述目标视频的音频信息，确定所述目标视频的音频特征；

根据所述目标视频的文本信息，确定所述目标视频的文本特征；

对所述目标视频的图像特征、音频特征和文本特征进行融合，获得所述目标视频的综合特征；

根据所述综合特征，进行所述目标视频与对照视频的相似度检索。

根据本申请实施例的另一方面，提供了一种视频检索装置，所述装置包括：

获取单元，用于获取目标视频的图像信息、音频信息和文本信息；

确定单元，用于根据所述目标视频的图像信息，确定所述目标视频的图像特征；

所述确定单元，还用于根据所述目标视频的音频信息，确定所述目标视频的音频特征；

所述确定单元，还用于根据所述目标视频的文本信息，确定所述目标视频的文本特征；

融合单元，用于对所述目标视频的图像特征、音频特征和文本特征进行融合，获得所述目标视频的综合特征；

检索单元，用于根据所述综合特征，进行所述目标视频与对照视频的相似度检索。

一种可选的实施例中，所述获取单元，具体用于：

对所述目标视频抽取至少两个目标帧；

针对每一个目标帧，获取所述目标帧的像素值，并将所述像素值进行归一化处理，得到所述目标图像的图像信息。

一种可选的实施例中，所述获取单元，具体用于：

从所述目标视频的音频中抽取预设时长的目标音频；

将所述目标音频转换为频谱图特征，得到所述目标视频的音频信息。

一种可选的实施例中，所述获取单元，具体用于：

获取所述目标视频的文本数据；

将文本数据进行分词处理，得到多个分词；

将每个词的词向量，作为所述目标视频的文本信息。

一种可选的实施例中，所述确定单元，具体用于：

将所述目标视频的图像信息输入图像处理网络，得到所述目标视频的图像特征；

将所述目标视频的音频信息输入音频处理网络，得到所述目标视频的音频特征；

将所述目标视频的文本信息输入文本处理网络，得到所述目标视频的文本特征；

所述融合单元，具体用于：

利用特征融合网络，将所述目标视频的图像特征、音频特征和文本特征进行融合，得到所述目标视频的综合特征；

所述图像处理网络、所述音频处理网络、所述文本处理网络和所述特征融合网络联合训练。

一种可选的实施例中，所述图像处理网络包括图像特征提取模型和图像特征融合模型；

所述确定单元，具体用于：

将所述目标视频中至少两个目标帧的图像信息输入所述图像特征提取模型，得到每一个目标帧的帧图像特征；

将所述至少两个目标帧的帧图像特征按照目标帧之间的时序输入所述图像特征融合模型，得到所述目标视频的图像特征。

一种可选的实施例中，所述音频处理网络包括音频特征提取模型和音频特征融合模型；

所述确定单元，具体用于：

将所述目标视频的至少两个单位时长的音频信息输入所述音频特征提取模型，得到每一个单位时长的音频特征；

将所述至少两个单位时长的音频特征按照时序输入所述音频特征融合模型，得到所述目标视频的音频特征。

一种可选的实施例中，所述确定单元，具体用于：

将所述目标视频的文本信息按照文本类型分为至少两个子文本信息；

针对所述至少两个子文本信息中的每一个子文本信息，将所述子文本信息输入文本处理模型，得到所述子文本信息对应的子文本特征；

将所有子文本特征进行融合，得到所述目标视频的文本特征。

一种可选的实施例中，还包括训练单元，用于利用以下方式训练所述图像处理网络、所述音频处理网络、所述文本处理网络和所述特征融合网络：

从视频训练数据集中获取训练视频的图像信息、音频信息和文本信息；所述视频训练数据集中包括多个训练视频的图像信息、音频信息和文本信息，并对应标注有训练视频的视频标签；

将所述训练视频的图像信息输入所述图像处理网络，得到所述训练视频的图像特征；

将所述训练视频的音频信息输入所述音频处理网络，得到所述训练视频的音频特征；

将所述训练视频的文本信息输入所述文本处理网络，得到所述训练视频的文本特征；

将所述训练视频的图像特征、音频特征和文本特征输入特征融合网络，得到所述训练视频的检测结果；

根据所述训练视频的检测结果与所述训练视频的视频标签，对所述图像处理网络、所述音频处理网络、所述文本处理网络和所述特征融合网络的参数进行调整，直至训练视频的检测结果和训练视频的视频标签在允许的差距范围内为止，得到已训练的网络模型参数。

根据本申请实施例的另一方面，提供了一种计算设备，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行本申请实施例提供的视频检索方法的步骤。

根据本申请实施例的另一方面，提供了一种存储介质所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行本申请实施例提供的视频检索方法的步骤。

本申请实施例中的视频检索方法，获取目标视频的图像信息、音频信息和文本信息，并根据目标视频的图像信息，确定目标视频的图像特征；根据目标视频的音频信息，确定目标视频的音频特征；根据目标视频的文本信息，确定目标视频的文本特征。之后，对目标视频的图像特征、音频特征和文本特征进行融合，得到目标视频的综合特征。根据确定的综合特征，进行目标视频与对照视频的相似度检索。本申请实施例不仅获取目标视频的文本信息，还获取了视频的图像信息和音频信息，可以基于文本信息确定文本特征，基于图像信息确定图像特征，基于音频信息确定音频特征，进而综合图像、音频、文本这三方面的特征得到综合特征，从而充分利用了视频多维度信息，体现了视频各方面的特性，对视频的体现更为具体和全面，提高了视频表示的质量，基于视频的综合特征进行视频检索，提升了视频检索结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1示出了本申请实施例提供的一种网络模型结构示意图；

图2示出了本申请实施例中的一种视频检索系统的系统架构图；

图3a示出了本申请实施例中的一种视频检索方法的流程图；

图3b示出了本申请实施例中基于终端设备与服务器交互的视频检索方法的流程图；

图4示出了本申请实施例中一种卷积神经网络的结构示意图；

图5示出了本申请具体实施例中的一种视频检索方法的流程示意图；

图6示出了本申请实施例中一种视频检索装置的结构方框图；

图7示出了本申请一个实施例提供的服务器的结构方框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

文中的术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面对本申请实施例中涉及的部分概念进行介绍。

1、帧：就是影像动画中最小单位的单幅影像画面。一帧就是一副静止的图像，连续的帧就形成动画，如电视图像等。通常说帧数，简单地说，就是在1秒钟时间里传输的图像的帧数，也可以理解为图形处理器每秒钟能够刷新几次，通常用FPS(Frames Per Second，每秒钟帧数)表示。每一帧都是静止的图像，快速连续地显示帧便形成了运动的假象。高的帧率可以得到更流畅、更逼真的动画，FPS越大，所显示的动作就会越流畅。

2、像素值：是原稿图像被数字化时由计算机赋予的值，它代表了原稿某一小方块的平均亮度信息，或者说是该小方块的平均反射(透射)密度信息。在将数字图像转化为网目调图像时，网点面积率(网点百分比)与数字图像的像素值(灰度值)有直接的关系，即网点以其大小表示原稿某一小方块的平均亮度信息。流行的图像处理软件通常用8位表示一个像素，这样总共有256个灰度等级(像素值在0～255间)，每个等级代表不同的亮度。

3、归一化：是将数据按比例缩放，使之落入一个小的特定区间。一般归一化会把数据变成(0,1)或者(1,1)之间的小数，主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。归一化使得后面的数据处理更为方便，其优点为可以加快模型的收敛速度，提升模型的精度。

4、梅尔频谱图：声音信号本是一维的时域信号，直观上很难看出频率变化规律。从音频文件中读取出来的原始声音信号通常是一个一维数组，长度是由音频长度和采样率决定，比如采样率Fs为16KHz，表示一秒钟内采样16000个点，这个时候如果音频长度是10秒，那么数组中就有160000个值，值的大小通常表示的是振幅。对原始声音信号进行分帧加窗后，可以得到很多帧，对每一帧做FFT(fast Fourier transform，快速傅里叶变换)，傅里叶变换的作用是把时域信号转为频域信号，把每一帧FFT后的频域信号(频谱图)在时间上堆叠起来就可以得到声谱图。声谱图往往是很大的一张图，为了得到合适大小的声音特征，往往把它通过梅尔标度滤波器组(mel-scale filter banks)，变换为梅尔频谱。人耳听到的声音高低和实际(Hz)频率不呈线性关系，用梅尔频谱更符合人耳的听觉特性，即在1000Hz以下呈线性分布，1000Hz以上呈对数增长。

5、卷积神经网络：(Convolutional Neural Networks，CNN)，是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习的代表算法之一，具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)。

6、ResNet(Residual Network，残差网络)模型：作为许多计算机视觉任务主干的经典神经网络，是当前应用最为广泛的CNN特征提取网络。ResNet第一个提出残差连接的概念，将原始的输入添加到卷层单元的输出，其中残差学习单元在输入、输出之间建立了一条直接的关联通道，从而使得强大的有参层集中精力学习输入、输出之间的残差。

7、NetVLAD模型：VLAD(Vector of locally aggregated descriptors，局部聚合向量)是将局部特征表示成全局特征的编码方法。其算法的核心思想是aggregated(积聚)，主要应用于图像检索领域。主要方法是通过聚类训练一个小的码本，对于每幅图像中的特征找到最近的码本聚类中心，随后所有特征与聚类中心的差值做累加，得到一个k×d的VLAD矩阵，其中k是聚类中心个数，d是特征维数，随后将该矩阵扩展为一个(k×d)维的向量，并对其L2归一化，所得到的向量即为VLAD向量。NetVLAD提出一种卷积神经网络结构，可以实现端到端的识别。是将传统的VLAD结构嵌入到CNN网络结构中去，得到一个新的VLAD层。NetVLAD可以很容易的运用到任何的CNN结构中，并且可以使用反向传播进行优化。

8、VGGish：作为特征提取器，VGGish模型从音频波形中提取具有语义和有意义的128维高维的特征向量，而128维高维特征向量可以作为下游模型的输入。VGGish的输入数据为音频文件，音频文件的特征提取过程如下：将音频重采样为单声道音频；对音频进行短时傅里叶变换得到频谱图；通过将频谱图映射到梅尔滤波器组中计算梅尔频谱，进一步计算得到稳定的梅尔声谱；然后这些特征被组帧，并且没有帧的重叠，每一帧都包含64个梅尔频带，时长10ms(即总共96帧)。VGGish模型输出数据格式为[nums_frames，128]，其中nums_frames为帧长，nums_frames等于音频时长除以0.96。

9、词向量：(Word embedding)，又叫Word嵌入式自然语言处理(Natural LanguageProcessing,NLP)中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

10、BERT(Bidirectional Encoder Representations from Transformers，基于变压器的双向编码器表征)模型：广泛应用于NLP领域，是一种通用预训练语言表示模型。目前得到预训练表示模型的方法主要有基于特征(Feature-based)的方法或者微调(Fine-tuning)的方法。基于特征的方法代表为ELMo模型，基于微调的方法的代表为OpenAIGPT模型，其中，GPT模型的词向量只考虑了前面词的信息，把前面词向量输入到Transformer模型，堆叠L层得到预训练表示特征。但是一个句子需要结合上下文才能准确把握意思，也就是不能仅把前面词的信息考虑进去，同时也需要考虑后面的词的意思，于是就引出了BERT模型。从结构上，与GPT相比，BERT加入了后向词的信息，这样模型就充分考虑了上下文的信息。

11、前馈神经网络(feedforward neural network，FNN)：简称前馈网络，是人工神经网络的一种。前馈神经网络采用一种单向多层结构。其中每一层包含若干个神经元。在此种神经网络中，各神经元可以接收前一层神经元的信号，并产生输出到下一层。第0层叫输入层，最后一层叫输出层，其他中间层叫做隐含层(或隐藏层、隐层)。隐层可以是一层，也可以是多层。整个网络中无反馈，信号从输入层向输出层单向传播。

为了解决相关技术中的技术问题，本申请实施例提供了一种视频检索方法和装置。本申请实施例涉及人工智能(Artificial Intelligence,AI)、机器学习(MachineLearning,ML)技术和云技术，基于人工智能中的计算机视觉(Computer Vision,CV)技术和机器学习而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、图像检索、视频监控、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例采用了基于深度强化学习的特征提取模型，对目标视频的目标帧、音频、文本进行特征提取，并将多种特征进行融合，作为目标视频的综合特征。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。本申请实施例在基于云技术实现时，可以通过云计算和云存储的方式对视频的图像信息、音频信息和文本信息进行存储和处理。

本申请实施例提供的视频检索方法可以应用于相似视频检索场景、视频去重场景、视频推荐场景等。例如，通过本申请实施例中的视频检索方法可以从网络上检测是否存在重复视频，从而保护了视频的原创者的版权。又例如，在向用户推送视频素材的过程中，可以利用本申请实施例中的视频检索方法确定不重复的推荐素材，从而避免给用户推送重复的视频素材；或者构建相似视频的关系链，用于将推荐的视频进行协同过滤。

下面介绍本申请的基本构思。

进行视频检索一般需要基于视频的特征向量，目前常见的构建视频向量的方法是基于视频的文本信息，例如视频的标题、标签、字幕、弹幕等。例如，将视频的文本信息输入深度强化学习模型中，通过模型计算，得到包含语义信息的视频特征向量，进一步利用多个视频特征向量构建视频向量池，进行视频检索。其中，深度强化学习模型可以为卷积神经网络、循环神经网络、注意力网络等。针对特定任务，深度强化学习模型利用训练样本的文本信息和标签进行训练和学习，得到模型参数。

但是上述方法只利用了视频的文本内容，没有充分利用视频的其它内容特征，导致特征向量的视频表示力不足，不能准确描述视频的全方面特性，影响了视频的检索质量。

基于此，本申请实施例不仅获取目标视频的文本信息，还获取目标视频的图像信息和音频信息。从目标视频的图像信息中获取目标视频的图像特征，从目标视频的音频信息中获取目标视频的音频特征，从目标视频的文本信息中获取目标视频的文本特征。其中，图像特征可以体现视频的具体内容，音频特征可以体现视频的情感和类型等特征，文本特征可以体现视频的主题和受欢迎程度等特征。进一步，将目标视频的图像特征、音频特征和文本特征进行融合，得到目标视频的综合特征，从而综合特征结合了目标视频的图像特征、音频特征、文本特征三方面的数据特征，可以更准确全面地体现目标视频的特性。与单独利用某一种类型的数据特征相比，将图像特征、音频特征和文本特征进行融合后，根据得到的综合特征进行检索，可以提高检索结果的准确性。

进一步地，本申请实施例针对不同方面的数据特征，利用不同的网络模型进行提取。图1示出了本申请实施例提供的一种网络模型结构示意图。具体的，利用图像处理网络从图像信息中提取图像特征，利用音频处理网络从音频信息中提取音频特征，利用文本信息中提取文本特征。

其中，图像处理网络包括图像特征提取模型和图像特征融合模型。图像特征提取模型可以为卷积神经网络，用于提取视频中每一个目标帧的帧图像特征，图像特征融合模型用于将多个目标帧的帧图像特征进行融合，得到视频的图像特征。图像特征融合模型可以为循环神经网络，或者也可以为局部聚合向量模型。

音频处理网络包括音频特征提取模型和音频特征融合模型。音频特征提取模型可以为VGGish等音频特征提取器，用于提取音频中每一个单位时长的音频特征。音频特征融合模型用于将所有单位时长的音频特征进行融合，得到整个视频的音频特征。音频特征融合模型可以为循环神经网络，或者也可以为局部聚合向量模型。

文本处理网络可以包括文本处理模型，文本处理模型可以为NLP领域的算法模型，用于从文本信息中提取文本特征。视频的文本信息包括标题信息、标签信息、字幕信息等子文本信息。针对每一个子文本信息，文本处理网络将子文本信息中包含的文字进行分词，并将每个词对应的词向量输入文本处理模型中，得到每个子文本信息对应的子文本特征，再将所有的子文本特征进行融合，得到视频的文本特征。

然后，利用特征融合网络，将图像特征、音频特征和文本特征进行融合，得到视频的综合特征，并利用综合特征进行视频检索，得到检索结果。特征融合网络可以为前馈神经网络模型。从而视频的综合特征融合了图像特征、音频特征、文本特征这三方面的视频特征，可以更全面准确地表现出视频的特性，进而提高视频检索的准确性。

上述特征提取过程中用到的网络模型，以及特征融合过程中用到的网络模型为联合训练。该联合训练过程可以为线上执行，直接得到模型参数；也可以为离线执行，将得到模型参数先进行保存，在需要视频检索时直接获取并使用。此外，得到目标视频的综合特征后，可以进一步确定目标视频的视频标签，然后将目标视频的相关信息作为训练样本输入回网络模型中，用于上述网络模型的训练和更新。

较佳地，本申请实施例中，图像特征提取模型为ResNET模型，图像特征融合模型为NetVLAD模型；音频特征提取模型为VGGish模型，音频特征融合模型为NetVLAD模型；文本处理模型为BERT模型；特征融合网络为前馈神经网络模型。本申请实施例将上述模型算法相结合，进行联合训练，通过迭代优化得出最优的模型参数。需要说明的是，特征提取模型和特征融合网络也可为其它算法模型，上述模型仅为举例不做限制。

在介绍完本申请实施例的设计思想之后，下面对本申请设置的应用场景进行简要说明。需要说明的是，以下场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

请参照图2，为本申请实施例提供的一种视频检索系统的示意图。该应用场景中包括终端设备201、服务器202和数据库203。终端设备201、服务器202可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图2是以数据库203独立于服务器202存在进行说明的，在其他可能的实现方式中，数据库203也可以位于服务器202中。

其中，终端设备201用于向服务器202发送视频上传请求或者视频下载请求，可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表或车载终端等，但并不局限于此。终端设备201中设有服务器202对应的终端设备，终端设备可以是网页终端设备，也可以是设置在终端设备201中的终端设备，也可以是嵌入至第三方应用中的轻应用等，本申请不限制终端设备的类型。

服务器202与数据库203连接，数据库203中存储有对照视频，服务器202接收终端设备201发送的目标视频，通过目标视频的图像信息、音频信息和文本信息中提取特征，并融合成综合特征，基于该目标视频的综合特征与数据库203中各对照视频的综合特征进行对比，确定目标视频与对照视频的相似度，实现视频检测。

需要说明的是，本申请提供的视频检索方法可以应用于服务器202，由服务器执行本申请实施例提供的视频检索方法；也可以应用于终端设备中，由终端设备201实施本申请提供的视频检索方法，还可以由服务器202与终端设备201配合完成。

服务器202，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，应用于视频产品中，应对个性化视频推荐等大数据量的处理需求。

在基于云技术实现时，服务器202可以通过云计算和云存储的方式对视频数据进行处理。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

在一种可能的实现方式中，通过云存储的方式对视频信息进行存储，当需要对网络模型进行训练时，从云存储对应的存储系统中获取训练样本，并利用训练样本对网络模型进行训练，得到模型参数，此时通过云计算的方式将计算任务分布在大量资源池中，减少计算压力，同时可以获取训练结果。

下面对视频检索过程适用的场景进行描述。

在一种场景下，用户想要以视频搜视频，则用户通过终端设备上传目标视频，期望从服务器中搜索到与目标视频相似的其他视频，在此场景下，利用本申请提供的方法，服务器可以确定目标视频的综合特征，基于对照视频的综合特征，对目标特征向量进行相似性检索，从视频库中选择与目标视频的相似度最大的一个或多个对照视频作为目标视频的相似视频，将该目标视频的相似视频作为检索结果，输出该检索结果。

例如，用户浏览过某电影的删减版，将其作为目标视频上传至终端设备，终端设备与服务器通信后，服务器从视频库中选择与该目标视频相似度最大的视频例如该电影的完整版，将其作为该目标视频的相似视频，最后，服务器将该电影的完整版视频作为检索结果，输出该检索结果，如此，用户就能够实现以视频搜视频，快速浏览到自己想看的视频。

在另一种场景下，视频运营平台为了有效管理视频，需要对判断新添加的视频与平台上已有视频资源是否重复，如果重复则需要进行去重处理，从而进行原创保护，也可以避免资源冗余占用过多存储空间，同时能够提高检索效率。视频运营平台考虑到视频库的存储容量以及用户的检索体验，也可以采用本申请实施例中的视频检测方法进行相似视频去重。

例如，将新上传的视频作为目标视频，将视频运营平台中的视频数据库中的视频作为对照视频，则服务器基于目标视频的综合特征和对照视频的综合特征，确定目标视频与每一个对照视频的相似度，当视频库中存在对照视频与目标视频的相似度超过预设的相似度阈值时，对视频库和目标视频进行去重。

在去重时，服务器可以将视频库中与目标视频对应的对照视频删除，进而将目标视频添加至视频库，以目标视频代替对照视频；服务器也可以拒绝添加目标视频至视频库，保留原有的对照视频。

要注意的是，上文提及的应用场景仅是为了便于理解本申请的精神和原理而示出，本申请实施例在此方面不受任何限制。相反，本申请实施例可以应用于适用的任何场景。

本申请实施例提供一种视频检索方法，其具体流程如图3a所示，包括以下步骤：

步骤S31：获取目标视频的图像信息、音频信息和文本信息。

步骤S32：根据目标视频的图像信息，确定目标视频的图像特征。

步骤S33：根据目标视频的音频信息，确定目标视频的音频特征。

步骤S34：根据目标视频的文本信息，确定目标视频的文本特征。

步骤S35：对目标视频的图像特征、音频特征和文本特征进行融合，获得目标视频的综合特征。

步骤S36：根据综合特征，进行目标视频与对照视频的相似度检索。

下面结合图1所示的应用场景，对本申请实施例提供的视频检索方法进行详细说明。

请参考图3b，本申请实施例提供了基于终端设备与服务器交互的一种视频检索方法，如图3b所示，方法包括：

步骤S300：终端设备向服务器发送视频检索请求。

这里的视频检索请求可以是终端设备响应于用户操作，向服务器发送的视频检索请求，例如，用户通过终端设备上传目标视频，想通过以视频搜视频的方式，获取与目标视频相似的视频，则终端设备向服务器发送视频检索请求，该视频检索请求中可以包含目标视频。

视频检索请求也可以是终端设备主动向服务器发送的视频检索请求。例如，用户在利用终端设备上的终端设备在线观看目标视频时，终端设备希望向用户推送与目标视频类似的视频，则终端设备直接向服务器发送视频检索请求，该视频检索请求中可包含目标视频的标识，以使服务器可以根据标识从数据库中查找到目标视频，再通过相似性检索搜索到目标视频相似度较大的视频推送给用户。

其中，目标视频可以是终端设备实时拍摄后上传的视频，例如视频编辑场景中，需要对摄像头实时拍摄的视频进行处理，此时，目标视频可以是摄像头实时拍摄的视频，通过本申请实施例中的视频检索方法可以查找到对应的视频素材；或者目标视频可以是从网络中获取的视频，例如视频查重场景中，需要检查网络获取的视频是否存在重复，此时，目标视频可以是网络中获取的需要进行查重的视频；或者，目标视频可以是本地存储的视频，例如视频查找场景中，需要根据本地视频从网络中查找到相似的视频，此时目标视频可以是本地数据库中存储的视频。

本领域技术人员应能理解，上述几种场景和视频来源仅为举例，基于这些范例进行的适当变化也可适用于本申请，本申请实施例并不对目标视频的来源和场景进行限定。

步骤S301：服务器获取目标视频的图像信息、音频信息和文本信息。

在实际应用中，目标视频也可认为是连续帧的图像集合，获取目标视频的图像信息即获取目标视频中各帧图像的信息。帧是视频中最小单位的单幅影像画面，相当于电影胶片上的每一格镜头，在视频软件的时间轴上帧表现为一格或一个标记。本申请实施例中的图像信息可以为目标视频中所有帧的图像信息，也可以是从目标视频中抽取部分帧的图像信息，具体的抽取方式可以为预先设置的，例如，可以为每20帧抽取一帧图像，即抽取目标视频的第0帧、第20帧、第40帧……对应的图像。视频的图像信息还可以是但不限于视频的封面图片、场景关键帧或基于音频的关键帧等。

一部电影或者一些短视频中，或多或少都会包含有背景音乐，或者人物之间的对话等音频。为了便于从音频信息中提取音频特征，需要将视频中的音频提取出来，单独存放。一般可以通过音频转换器等音频编辑处理软件对视频进行音频提取处理，将音频从视频中提取出来。音频以数字格式存储在计算机系统的文件中。模拟音频转换成数字形式的过程被称为音频编码，并通过使用小的软件程序音频编解码器完成。然后，编码的音频数据以音频文件夹的格式被存储在一个类的容器中。本申请实施例中，音频信息包括在与目标视频绑定的音频文件中。音频文件包含波形数据，可以以未压缩和压缩形式。最常见地，音频数据是使用有损压缩，以节省存储空间存储在一个压缩的形式。

文本信息可以保存在与目标视频绑定的文本信息文件中。视频的文本信息可以包括但不限于视频名称、视频标题、字幕、弹幕等。在一些用于筛选发布后的视频的实施例中，视频的文本信息还可以包括视频的相关评论等。

步骤S302：服务器根据目标视频的图像信息，确定目标视频的图像特征。

具体实施过程中，从图像信息中抽取图像特征可以利用一个或多个网络模型，将图像信息输入网络模型中，计算得到对应的图像特征向量。

目标视频的图像是以连续帧的形式保存的，目标视频的图像特征可以基于目标视频中所有帧的图像信息，但这种方式的数据量较大，不易于计算，因此，本申请实施例是对目标视频中的目标帧进行特征提取。具体包括：

对目标视频抽取至少两个目标帧；

针对每一个目标帧，获取目标帧的像素值，并将像素值进行归一化处理，得到目标帧的图像信息。

这里，目标帧可以是目标视频的场景关键帧或者为基于音频的关键帧，也可以是按照设定的帧数从目标视频中均匀抽取。例如，若设定的目标帧数为30，则无论目标视频的长短，可以从中均匀抽取30帧作为目标帧。具体的，本申请实施例中通过FFmpeg(FastForward Mpeg)对目标视频进行均匀抽帧。FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，它提供了录制、转换以及流化音视频的完整解决方案。

抽取目标帧后，针对每一个目标帧，将目标帧转换为像素值。像素是最小的图像单元，一张图像由很多的像素组成。像素值是原图像被数字化时由计算机赋予的值，它代表了原图像对应像素的平均亮度信息，或者说是该像素的平均反射(透射)密度信息。在一张图像上，一个像素对应唯一一个像素值。由于通常用8位表示一个像素，这样总共有256个灰度等级(像素值在0～255之间)，为了便于后续数据处理，需要将像素值进行归一化处理，将归一化处理后的像素值作为目标帧的图像信息。

步骤S303：根据目标视频的音频信息，确定目标视频的音频特征。

具体实施过程中，从音频信息中抽取音频特征可以利用一个或多个网络模型，将音频信息输入网络模型中，计算得到对应的音频特征向量。

目标视频的图像是以连续帧的形式保存的，目标视频的图像特征可以基于目标视频中所有帧的图像信息，但这种方式的数据量较大，不易于计算，因此，本申请实施例是对目标视频中的目标帧进行特征提取。

声音信号是一维的时域信号，直观上很难看出频率变化规律。从音频文件中读取出来的原始声音信号通常是一个一维数组，长度是由音频长度和采样率决定，比如采样率Fs为16KHz，表示一秒钟内采样16000个点，这个时候如果音频长度是10秒，那么数组中就有160000个值，值的大小通常表示的是振幅。目标视频的音频特征可以基于目标视频中所有音频，但这种方式的数据量较大，不易于计算，因此，本申请实施例是对目标视频的音频中抽取部分音频进行特征提取。具体包括：

从目标视频的音频中抽取预设时长的目标音频；

将目标音频转换为频谱图特征，得到目标视频的音频信息。

具体来说，目标音频可以为连续的音频，例如，若预设时长为20秒(s)，可以将目标视频的开始20s内的音频作为目标音频，也可以将目标视频的最后20s内的音频作为目标音频，还可以将目标视频中任意20s时间内的音频作为目标音频。目标音频也可以为不连续的音频，例如，从目标视频的音频中分别抽取4个5s时长的音频作为目标音频，4个音频之间的间隔时长可以相等也可以不相等，或者4个音频的时长也可以不完全相同。

之后，为了便于操作，还需将目标音频转为频谱图特征，将频谱图特征作为音频信息。频谱图特征可以为原始的声谱图特征，也可以对声谱图进行变换，变为其他形式的频谱图。

较佳地，本申请实施例中将音频转换为梅尔频谱图。人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的。在语音特征的提取上，人类听觉系统不仅能提取出语义信息,而且能提取出说话人的个人特征。为了模拟人类的听觉系统，如果在语音识别系统中能模拟人类听觉感知处理特点，就有可能提高语音的识别率。梅尔频谱即考虑到了人类的听觉特征，将线性频谱映射到基于听觉感知的梅尔非线性频谱中。在梅尔频域内，人对音调的感知度为线性关系。举例来说，如果两段语音的梅尔频率相差两倍，则人耳听起来两者的音调也相差两倍。具体做法为，将频谱通过一组梅尔滤波器就得到梅尔频谱，从而获取梅尔频谱图特征。

步骤S304：根据目标视频的文本信息，确定目标视频的文本特征。

具体实施过程中，为了将无法计算的文本信息转化为可以计算的数字信息，需要对目标视频对应的文本进行分词，并确定对应的词向量。具体方法为：

获取目标视频的文本数据；

将文本数据进行分词处理，得到多个分词；

将每个词的词向量，作为目标视频的文本信息。

具体来说，对目标视频的所有文本数据进行分词处理，得到目标视频对应的多个分词。其中，每个分词包括至少一个字符。

要将自然语言交给机器学习中的算法来处理，通常需要首先将语言数学化，词向量就是用来将语言中的词进行数学化的一种方式，就是将词映射到向量空间里，并用向量来表示。词向量的确定方法包括one-hot(独热)编码、Word2Vec(word to vector，分词矢量化)、词袋模型(Bag-of-words model)等。本申请实施例可以将目标视频的所有文本数据均转化为词向量，将词向量作为文本信息。

需要说明的是，上述步骤302至步骤304之间的顺序仅为举例，不做限定。

步骤S305：对目标视频的图像特征、音频特征和文本特征进行融合，获得目标视频的综合特征。

具体地，得到目标视频的图像特征、音频特征和文本特征之后，对这三种特征进行融合。具体的融合方式本申请不做限制，可以是将三者按照一定顺序拼接起来，或者也可以将三者按照一定的计算规则进行融合计算，或者也可以将三者输入网络模型中，得到综合特征。

步骤S306：根据综合特征，进行目标视频与对照视频的相似度检索。

其中，对照视频可以是终端设备实时拍摄后上传的视频，或者对照视频可以是从网络中获取的视频，或者对照视频可以是本地存储的视频。对照视频的综合特征也可以利用与上述确定目标视频的综合特征相似的方式获得。对照视频的综合特征可以为服务器或终端实时计算得到，较佳地，为了便于对照和检索，一般对照视频的综合特征为预先根据对照视频计算得到后存储在数据库中，这样在需要对目标视频进行对比或检索时，服务器直接从本地数据库中获取即可。

具体实施过程中，可以将所有对照视频按照相似度进行排序，将排序最优的N个对照视频作为推荐内容，或者也可以直接将相似度最高的对照视频作为推荐内容。

步骤S307：服务器向终端设备发送推荐内容。

进一步地，为了增加特征提取的准确性，本申请实施例中的特征均利用网络模型进行提取。

即根据目标视频的图像信息，确定目标视频的图像特征，包括：

将目标视频的图像信息输入图像处理网络，得到目标视频的图像特征。

根据目标视频的音频信息，确定目标视频的音频特征，包括：

将目标视频的音频信息输入音频处理网络，得到目标视频的音频特征。

根据目标视频的文本信息，确定目标视频的文本特征，包括：

将目标视频的文本信息输入文本处理网络，得到目标视频的文本特征。

对目标视频的图像特征、音频特征和文本特征进行融合，获得目标视频的综合特征，包括：

利用特征融合网络，将目标视频的图像特征、音频特征和文本特征进行融合，得到目标视频的综合特征。

其中，图像处理网络、音频处理网络、文本处理网络和特征融合网络联合训练。

下面对图像、音频、文本三方面特征提取进行详细介绍。

针对图像特征提取，图像处理网络包括图像特征提取模型和图像特征融合模型；

将目标视频的图像信息输入图像处理网络，得到目标视频的图像特征，包括：

将目标视频中至少两个目标帧的图像信息输入图像特征提取模型，得到每一个目标帧的帧图像特征；

将至少两个目标帧的帧图像特征按照目标帧之间的时序输入图像特征融合模型，得到目标视频的图像特征。

具体实施过程中，对图像特征的提取利用两个网络模型执行。其中，图像特征提取网络用于提取每个目标帧的帧图像特征，图像特征融合模型用于将所有目标帧的帧图像特征进行融合。

其中，图像特征提取网络可以为卷积神经网络。图4示出了一种卷积神经网络的结构示意图。如图4所示，一个卷积神经网络主要由以下5层结构组成：

1、输入层。输入层是整个卷积神经网络的输入，在处理图像的卷积神经网络中，它一般代表了一张图片的像素矩阵。比如在图4中，最左侧的三维矩阵的长和宽代表了图像的大小，而三维矩阵的深度代表了图像的色彩通道(channel)。比如黑白图片的深度为1，而在RGB色彩模式下，图像的深度为3。从输入层开始，卷积神经网络通过不同的神经网络结构将上一层的三维矩阵转化为下一层的三维矩阵，直到最后的全连接层。

2、卷积层。卷积层中的每一个节点的输入只是上一层神经网络中的一小块，这个小块的大小可以为3*3或者5*5。卷积层试图将神经网络中的每一个小块进行更加深入的分析从而得到抽象程度更高的特征。一般来说，通过卷积层处理的节点矩阵会变得更深，所以图4中可以看到经过卷积层之后的节点矩阵的深度会增加。

3、池化层。池化层不会改变三维矩阵的深度，但是它可以缩小矩阵的大小。池化操作可以认为是将一张分辨率较高的图片转化为分辨率较低的图片。通过池化层，可以进一步缩小最后全连接层中节点的个数，从而达到减少整个神经网络中的参数的目的。

4、全连接层。在经过多轮卷积层和池化层处理之后，在卷积神经网络的最后一般会由1到2个全连接层来给出最后的分类结果。经过几轮的卷积层和池化层的处理之后，可以认为图像中的信息已被抽象成了信息含量更高的特征。可以将卷积层和池化层看成自动图像特征提取的过程，在特征提取完成之后，仍然需要使用全连接层来完成分类任务。

5、Softmax层。Softmax(逻辑回归)层主要用于分类问题。经过Softmax层，可以得到当前图像属于不同种类的概率分布情况。

为了进一步提高特征提取的准确性，本申请实施例利用ResNet模型作为图像特征提取网络。相比普通的卷积神经网络，每两层间通过短路机制加入了残差单元，这就形成了残差学习，从而使网络模型具有更好的性能，更容易被训练和学习。

得到每一目标帧的帧图像特征后，需要将多个目标帧的帧图像特征进行融合。考虑到目标帧与目标帧之间的时序性，可以利用双向长短时记忆网络等循环神经网络进行特征融合。此外也可以通过聚类的方法进行多个目标帧的帧图像特征的融合，如VLAD模型、NetVLAD模型等。较佳地，本申请实施例使用Netvlad模型进行目标帧的帧图像特征融合。

VLAD是将局部特征表示成全局特征的编码方法。主要方法是通过聚类训练一个小的码本，对于每幅图像中的特征找到最近的码本聚类中心，随后所有特征与聚类中心的差值做累加，得到一个k×d的VLAD矩阵，其中k是聚类中心个数，d是特征维数，随后将该矩阵扩展为一个(k×d)维的向量，并对其L2归一化，所得到的向量即为VLAD向量。传统的VLAD模型不能进行反向传播，且VLAD向量中包含一个不连续的值，取值为1或0，表示某个特征是否属于每个簇，这种方式容易造成一定的信息丢失。

NetVLAD模型在VLAD基础上进行改进，提出一种卷积神经网络结构，可以实现端到端的识别。是将传统的VLAD结构嵌入到CNN网络结构中去，得到一个新的VLAD层。NetVLAD就是将特征与每个簇的关系用一个概率值表示(最终所有的概率值之和为1)，相比于VLAD，NetVLAD包含更多的参数，因此有着更好的适应性和学习性。

本申请实施例中，将每个目标帧的图像信息输入Resnet模型中，得到每个目标帧的帧图像特征。再将所有目标帧的帧图像特征输入NetVLAD模型中进行融合，得到整个目标视频的图像特征。

针对音频特征提取，音频处理网络包括音频特征提取模型和音频特征融合模型；

将目标视频的音频信息输入音频处理网络，得到目标视频的音频特征，包括：

将目标视频的至少两个单位时长的音频信息输入音频特征提取模型，得到每一个单位时长的音频特征；

将至少两个单位时长的音频特征按照时序输入音频特征融合模型，得到目标视频的音频特征。

具体实施过程中，对音频特征的提取利用两个网络模型执行。其中，音频特征提取网络用于提取每个单位时长的音频特征，音频特征融合模型用于将所有单位时长的音频特征进行融合。

其中，图像特征提取网络可以是VGGish模型。VGGish模型作为特征提取器，将音频转化为具有语义和有意义的128维高维的特征向量，而128维高维特征向量可以作为后续模型的输入。

单位时长的音频特征提取过程如下：1、将音频重采样为16kHz单声道音频；2、使用25ms的Hann时窗，10ms的帧移对音频进行短时傅里叶变换得到频谱图；3、通过将频谱图映射到64阶梅尔滤波器组中计算梅尔频谱图特征；4、将梅尔频谱图特征被以0.96s的时长被组帧，并且没有帧的重叠，每一帧都包含64个梅尔频带，时长10ms(即总共96帧)。

VGGish模型输出数据格式为[nums_frames，128]，其中nums_frames为帧长，nums_frames＝音频时长/0.96。

本申请实施例通过VGGish模型得到单位时长的音频特征。其中，音频的单位时长可以具体为音频帧，即得到多个音频帧的音频特征。为了将多个音频帧的音频特征进行融合，由于音频帧与音频帧之间也具有时序性，可以利用双向长短时记忆网络等循环神经网络进行特征融合。此外也可以通过聚类的方法进行多个音频帧的音频特征的融合，如VLAD模型、NetVLAD模型等。较佳地，本申请实施例利用Netvlad模型进行多个音频帧的音频特征融合，即将每个音频帧的音频特征输入Netvlad模型中，得到目标视频的音频特征。

针对文本特征提取，将目标视频的文本信息输入文本处理网络，得到目标视频的文本特征，包括：

将目标视频的文本信息按照文本类型分为至少两个子文本信息；

针对至少两个子文本信息中的每一个子文本信息，将子文本信息输入文本处理模型，得到子文本信息对应的子文本特征；

将所有子文本特征进行融合，得到目标视频的文本特征。

具体实施过程中，目标视频的文本类型可以包括视频的标题、标签、字幕、弹幕等。其中一个文本类型对应一个子文本信息，例如目标视频的标题为一个子文本，字幕对应一个子文本、弹幕对应一个子文本。针对每一个子文本，将该子文本分词后确定的词向量输入文本处理模型中。这里的文本处理模型可以为BERT模型。BERT模型将双向Transformer(编码器)用于语言模型，Transformer是一种注意力机制，可以学习文本中单词之间的上下文关系。BERT模型通过联合调节所有层中的上下文来预先训练深度双向表示，在大量的句子级任务上实现了最先进的性能，强于许多面向特定任务体系架构的系统。

本申请实施例中将每个子文本信息，即每个子文本的词向量输入BERT模型中，得到该子文本的特征。

之后，将所有子文本的特征进行融合，例如，将标题文本的特征、字幕文本的特征和弹幕文本的特征进行融合，得到目标视频的文本特征。这里的融合可以是直接凭借，或者为相同维度的向量取最大或最小等。

最后，将确定的图像特征、音频特征和文本特征输入特征融合网络进行融合，即可得到目标视频的综合特征。本申请实施例中，特征融合网络可以为前馈神经网络，将图像特征、音频特征和文本特征连接起来，输入前馈神经网络，将前馈神经网络的输出作为目标视频的综合特征。

进一步地，本申请实施例中的图像处理网络、音频处理网络、文本处理网络和特征融合网络进行联合训练。

具体为，从视频训练数据集中获取训练视频的图像信息、音频信息和文本信息；视频训练数据集中包括多个训练视频的图像信息、音频信息和文本信息，并对应标注有训练视频的视频标签；

将训练视频的图像信息输入图像处理网络，得到训练视频的图像特征；

将训练视频的音频信息输入音频处理网络，得到训练视频的音频特征；

将训练视频的文本信息输入文本处理网络，得到训练视频的文本特征；

将训练视频的图像特征、音频特征和文本特征输入特征融合网络，得到训练视频的检测结果；

根据训练视频的检测结果与训练视频的视频标签，对图像处理网络、音频处理网络、文本处理网络和特征融合网络的参数进行调整，直至训练视频的检测结果和训练视频的视频标签在允许的差距范围内为止，得到已训练的网络模型参数。

下面以具体实施例对上述流程进行详细介绍，具体实施例的具体流程如图5所示，包括：

服务器接收终端设备发送的视频检索请求，该视频检索请求中包含目标视频。

服务器对目标视频抽取至少两个目标帧；针对每一个目标帧，获取目标帧的像素值，并将像素值进行归一化处理，得到目标帧的图像信息。

从目标视频的音频中抽取预设时长的目标音频；将目标音频转换为频谱图特征，得到目标视频的音频信息。

获取目标视频的文本数据；将文本数据进行分词处理，得到多个分词；将每个词的词向量，作为目标视频的文本信息。

将目标视频的图像信息输入ResNET模型，得到目标帧的帧图像特征；将所有帧图像特征按照目标帧之间的时序输入NetVLAD模型，得到目标视频的图像特征。

将目标视频的音频信息输入VGGish模型，得到音频帧的音频特征；将所有音频帧的图像特征按照音频帧之间的时序输入NetVLAD模型，得到目标视频的音频特征。

将目标视频的文本进行分词，得到词向量；将所有词向量输入BERT模型，得到目标视频的文本特征。

将目标视频的图像特征、音频特征、文本特征输入前馈神经网络，得到目标视频的综合特征。

服务器利用目标视频的综合特征进行视频检索，确定检索结果并向终端设备反馈。

下述为本申请装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图6，其示出了本申请一个实施例提供的视频检索装置的结构方框图。该装置包括：获取单元601、确定单元602、融合单元603、检索单元604。

获取单元601，用于获取目标视频的图像信息、音频信息和文本信息；

确定单元602，用于根据目标视频的图像信息，确定目标视频的图像特征；

确定单元602，还用于根据目标视频的音频信息，确定目标视频的音频特征；

确定单元602，还用于根据目标视频的文本信息，确定目标视频的文本特征；

融合单元603，用于对目标视频的图像特征、音频特征和文本特征进行融合，获得目标视频的综合特征；

检索单元604，用于根据综合特征，进行目标视频与对照视频的相似度检索。

一种可选的实施例中，获取单元601，具体用于：

对目标视频抽取至少两个目标帧；

针对每一个目标帧，获取目标帧的像素值，并将像素值进行归一化处理，得到目标图像的图像信息。

一种可选的实施例中，获取单元601，具体用于：

从目标视频的音频中抽取预设时长的目标音频；

将目标音频转换为频谱图特征，得到目标视频的音频信息。

一种可选的实施例中，获取单元601，具体用于：

获取目标视频的文本数据；

将文本数据进行分词处理，得到多个分词；

将每个词的词向量，作为目标视频的文本信息。

一种可选的实施例中，确定单元602，具体用于：

将目标视频的图像信息输入图像处理网络，得到目标视频的图像特征；

将目标视频的音频信息输入音频处理网络，得到目标视频的音频特征；

将目标视频的文本信息输入文本处理网络，得到目标视频的文本特征；

融合单元603，具体用于：

利用特征融合网络，将目标视频的图像特征、音频特征和文本特征进行融合，得到目标视频的综合特征；

图像处理网络、音频处理网络、文本处理网络和特征融合网络联合训练。

一种可选的实施例中，图像处理网络包括图像特征提取模型和图像特征融合模型；

确定单元602，具体用于：

一种可选的实施例中，音频处理网络包括音频特征提取模型和音频特征融合模型；

确定单元602，具体用于：

一种可选的实施例中，确定单元602，具体用于：

将所有子文本特征进行融合，得到目标视频的文本特征。

一种可选的实施例中，还包括训练单元，用于利用以下方式训练图像处理网络、音频处理网络、文本处理网络和特征融合网络：

从视频训练数据集中获取训练视频的图像信息、音频信息和文本信息；视频训练数据集中包括多个训练视频的图像信息、音频信息和文本信息，并对应标注有训练视频的视频标签；

本申请实施例中的视频检索装置，不仅获取目标视频的文本信息，还获取目标视频的图像信息和音频信息。从目标视频的图像信息中获取目标视频的图像特征，从目标视频的音频信息中获取目标视频的音频特征，从目标视频的文本信息中获取目标视频的文本特征。其中，图像特征可以体现视频的具体内容，音频特征可以体现视频的情感和类型等特征，文本特征可以体现视频的主题和受欢迎程度等特征。进一步，将目标视频的图像特征、音频特征和文本特征进行融合，得到目标视频的综合特征，从而综合特征结合了目标视频的图像特征、音频特征、文本特征三方面的数据特征，可以更准确全面地体现目标视频的特性。与单独利用某一种类型的数据特征相比，将图像特征、音频特征和文本特征进行融合后，根据得到的综合特征进行检索，可以提高检索结果的准确性。

请参考图7，其示出了本申请一个实施例提供的计算机设备的结构方框图。该计算机设备1100可以实现为图2中的服务器202，也可以是终端设备201，本实施例以该计算机设备为服务器为例进行说明。具体来讲：

计算机设备1100包括中央处理单元(CPU)801、包括随机存取存储器(RAM)1102和只读存储器(ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。计算机设备1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，大容量存储设备1107可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

根据本申请的各种实施例，计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序包含用于进行本申请实施例提供的视频检索的指令。

本领域普通技术人员可以理解上述实施例的视频检索方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解上述实施例的视频检索方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频检索方法，其特征在于，包括：

获取目标视频的图像信息、音频信息和文本信息；

2.根据权利要求1所述的方法，其特征在于，所述获取目标视频的图像信息，包括：

对所述目标视频抽取至少两个目标帧；

针对每一个目标帧，获取所述目标帧的像素值，并将所述像素值进行归一化处理，得到所述目标帧的图像信息。

3.根据权利要求1所述的方法，其特征在于，所述获取目标视频的音频信息，包括：

从所述目标视频的音频中抽取预设时长的目标音频；

4.根据权利要求1所述的方法，其特征在于，所述获取目标视频的文本信息，包括：

获取所述目标视频的文本数据；

将所述文本数据进行分词处理，得到多个分词；

将每个词的词向量，作为所述目标视频的文本信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频的图像信息，确定所述目标视频的图像特征，包括：

所述根据所述目标视频的音频信息，确定所述目标视频的音频特征，包括：

所述根据所述目标视频的文本信息，确定所述目标视频的文本特征，包括：

所述对所述目标视频的图像特征、音频特征和文本特征进行融合，获得所述目标视频的综合特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述图像处理网络包括图像特征提取模型和图像特征融合模型；

所述将所述目标视频的图像信息输入图像处理网络，得到所述目标视频的图像特征，包括：

7.根据权利要求5所述的方法，其特征在于，所述音频处理网络包括音频特征提取模型和音频特征融合模型；

所述将所述目标视频的音频信息输入音频处理网络，得到所述目标视频的音频特征，包括：

8.根据权利要求5所述的方法，其特征在于，所述将所述目标视频的文本信息输入文本处理网络，得到所述目标视频的文本特征，包括：

9.根据权利要求5所述的方法，其特征在于，所述图像处理网络、所述音频处理网络、所述文本处理网络和所述特征融合网络利用以下方式进行训练：

10.一种视频检索装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述确定单元，具体用于：

所述融合单元，具体用于：

12.根据权利要求11所述的装置，其特征在于，还包括训练单元，用于利用以下方式训练所述图像处理网络、所述音频处理网络、所述文本处理网络和所述特征融合网络：

13.根据权利要求10所述的装置，其特征在于，所述获取单元，具体用于：

对所述目标视频抽取至少两个目标帧；

针对每一个目标帧，获取所述目标帧的像素值，并将所述像素值进行归一化处理，得到所述目标图像的图像信息；

从所述目标视频的音频中抽取预设时长的目标音频；

将所述目标音频转换为频谱图特征，得到所述目标视频的音频信息；

获取所述目标视频的文本数据；

将文本数据进行分词处理，得到多个分词；

将每个词的词向量，作为所述目标视频的文本信息。

14.一种计算机设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1～9中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1～9中任一项所述的方法。