CN117251598A

CN117251598A - 视频检索方法

Info

Publication number: CN117251598A
Application number: CN202311283483.6A
Authority: CN
Inventors: 翟懿奎; 柯文宇; 应自炉; 李文霸; 周建宏; 冼庭锋; 谭梓峻; 李博
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-12-19

Abstract

本申请实施例提供了视频检索方法，通过将原始视频分离得到视频流、音频流和字幕流；对由音频流所映射的文本数据和字幕流提取文本特征向量；对视频流在关键帧图像的浅层表达提取图像特征向量；根据文本特征向量和图像特征向量的相似度将文本特征向量和图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量；根据文本图像嵌入向量和原始视频构建关系数据库；根据关系数据库由查询文本从多个原始视频中检索得到目标视频；利用多模态数据提升视频检索的效率和准确性。

Description

视频检索方法

技术领域

本申请实施例涉及图像处理领域，尤其涉及视频检索方法。

背景技术

视频内容检索指的是通过各类查询元语来查找、检索和定位到符合内容语义到视频及其片段或帧的过程。目前大部分的视频搜索引擎仅仅通过搜索视频描述文本或匹配视频的标签等利用视频外部附加元数据的方法来完成检索，是一种简单的文本匹配。这种简单文本匹配的最大缺陷是，如果视频的外部附加元数据中不包括检索关键字时，检索可能会失败。传统的同模态检索方式包括利用图像检索视频，或者利用用户提供的小段视频样本的来检索视频。典型的同模态匹配算法包括色彩直方图匹配、局部二值特征匹配、频域轮廓波变换匹配等。这类基于传统的图形图像学算法的同模态检索算法存在一定局限性：需要用户提供同模态的检索素材，如截图或一小段视频片段，这在某些情况下用户是很难提前获取并准备好这些材料的；图形图像学算法对检索素材的要求很高，需要与相关内容高度契合，素材的旋转、剪切、色彩失真、压缩噪音等对检索结果有很大的影响。这对视频检索的效率和准确性造成影响。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一，本申请实施例提供了视频检索方法，利用多模态数据提升视频检索的效率和准确性。

本申请的实施例，一种视频检索方法，包括：

获取原始视频；

将所述原始视频分离得到视频流、音频流和字幕流；

通过文本特征提取器对由所述音频流所映射的文本数据和字幕流提取文本特征向量；

通过图像特征提取器对所述视频流在关键帧图像的浅层表达提取图像特征向量；

根据所述文本特征向量和所述图像特征向量的相似度将所述文本特征向量和所述图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量；

根据所述文本图像嵌入向量和所述原始视频构建关系数据库；

获取查询文本，根据所述关系数据库由所述查询文本从多个所述原始视频中检索得到目标视频。

根据本申请的某些实施例，在所述将所述原始视频分离得到视频流、音频流和字幕流之前，所述视频检索方法还包括：

获取所述原始视频的视频帧的帧类型；

获取帧类型为I帧的视频帧的帧号和时间戳；

将相邻的两个帧类型为I帧的视频帧的帧号差作为子片段长度，根据子片段长度对所述原始视频进行分割，得到若干个原始视频的视频段。

根据本申请的某些实施例，所述将所述原始视频分离得到视频流、音频流和字幕流，包括：

获取所述原始视频的视频段的文件头部和文件后续名；

根据所述文件头部和所述文件后续名确定所述原始视频所对应的视频文件容器的类型；

根据所述视频文件容器的类型从多个分离器中确定目标分离器；

由所述目标分离器将所述原始视频分离得到视频流、音频流和字幕流。

根据本申请的某些实施例，所述通过文本特征提取器对由所述音频流所映射的文本数据和字幕流提取文本特征向量，包括:

对所述音频流进行语音识别得到文本数据；

将所述文本数据与所述字幕流进行文本拼接得到综合文本；

过滤所述综合文本中的非文字字符得到过滤文本；

通过所述文本特征提取器对所述过滤文本提取文本特征向量。

根据本申请的某些实施例，所述通过图像特征提取器对所述视频流在关键帧图像的浅层表达提取图像特征向量，包括：

将所述原始视频的视频段的首个帧类型为I帧的视频帧作为所述原始视频的视频段的关键帧图像；

将所述关键帧图像转换为二维矩阵形式，将二维矩阵形式的关键帧图像归一化为浮点数矩阵形式；

通过图像特征提取器对浮点数矩阵形式的关键帧图像提取图像特征向量。

根据本申请的某些实施例，所述通过图像特征提取器对浮点数矩阵形式的关键帧图像提取图像特征向量，包括：

通过图像特征提取器的主干网络对浮点数矩阵形式的关键帧图像提取图像特征向量的局部特征；

通过图像特征提取器的全局特征提取块对浮点数矩阵形式的关键帧图像提取图像特征向量的全局特征。

根据本申请的某些实施例，所述图像特征提取器的主干网络包括局部特征提取块和多个第一卷积层，所述局部特征提取块包括多个第二卷积层，所述第二卷积层之间通过高斯误差批正则化来修正局部特征经卷积后的分布偏差。

根据本申请的某些实施例，所述全局特征提取块位于所述第一卷积层之间；所述全局特征提取块包括局部感知层、多头注意力层、层标准化层和反转残差前馈层；所述局部感知层用于将输入的特征图分离成R通道的特征图、G通道的特征图、B通道的特征图分别进行卷积和组合，并与输入的特征图的残差相加；所述反转残差前馈层包括残差连接的第三卷积层和逐色深卷积层。

根据本申请的某些实施例，在所述根据所述文本特征向量和所述图像特征向量的相似度将所述文本特征向量和所述图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量之后，所述视频检索方法还包括：

采用小批量梯度下降法根据所述文本特征向量和所述图像特征向量的相似度得到反向梯度；

根据所述文本特征向量和所述图像特征向量的相似度计算得到损失函数；

根据所述反向梯度和所述损失函数优化所述文本特征提取器的权重和所述图像特征提取器的权重。

根据本申请的某些实施例，所述根据所述文本图像嵌入向量和所述原始视频构建关系数据库，包括:

根据所述文本图像嵌入向量、所述视频段的第一标识、所述原始视频的第二标识、所述视频段的开始时间戳、所述视频段的结束时间戳构建关系数据库。

上述方案至少具有以下的有益效果：通过将原始视频分离得到视频流、音频流和字幕流；对由音频流所映射的文本数据和字幕流提取文本特征向量；对视频流在关键帧图像的浅层表达提取图像特征向量；根据文本特征向量和图像特征向量的相似度将文本特征向量和图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量；根据文本图像嵌入向量和原始视频构建关系数据库；根据关系数据库由查询文本从多个原始视频中检索得到目标视频；利用多模态数据提升视频检索的效率和准确性。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1是本申请提供的视频检索方法的步骤图；

图2是本申请提供的视频检索方法的流程示意图；

图3是文本特征提取器的工作流程示意图；

图4是图像特征提取器的工作流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面结合附图，对本申请实施例作进一步阐述。

本申请的实施例，提供了视频检索方法。

参照图1和图2，视频检索方法，包括但不限于以下步骤：

步骤S100，获取原始视频；

步骤S200，将原始视频分割成视频段；

步骤S300，将原始视频的视频段分离得到视频流、音频流和字幕流；

步骤S400，通过文本特征提取器对由音频流所映射的文本数据和字幕流提取文本特征向量；

步骤S500，通过图像特征提取器对视频流在关键帧图像的浅层表达提取图像特征向量；

步骤S600，根据文本特征向量和图像特征向量的相似度将文本特征向量和图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量；

步骤S700，根据文本图像嵌入向量和原始视频构建关系数据库；

步骤S800，获取查询文本，根据关系数据库由查询文本从多个原始视频中检索得到目标视频。

对于步骤S100，通过大型视频数据库获取原始视频。原始视频可以是动漫视频等类型的视频。动漫番剧视频有着独立的特点：番剧视频所附带的音频中包含大量的对白，而对白的内容往往包含视频片段场景内容、角色动作、互动状态等信息，因而是一种非常好的检索素材；番剧的语言往往不是中文，因此为了便于观众观看一般都会附带配套的字幕，而字幕本身不仅包含了对话、附注、场景说明等文本信息，更重要的是字幕还包含有字幕开始时间戳和结束时间戳，直接对应一小段视频片段，因而字幕本身无需分割即可直接利用作为视频片段的文本标注。

对于步骤S200，动漫番剧视频片段的转场是人为作画产生，因此利用GOP信息可以完成对视频的分割。

一个视频的内部可以包含多个内容不同的片段，因此在对视频进行标注和进一步处理之前，需要先对视频进行分割。

视频编码器都是根据帧的时域复杂度和前后参考关系，使用I帧、P帧和B帧这几种帧编码类型对帧进行时域编码，并构成一个GOP结构。

I帧：内部编码帧，即完全不参照任何其它帧独立进行空域编码的帧，是可以被单独提取关键帧；

P帧：前向预测编码帧，此类型的编码帧会参照位于该帧前面的若干帧进行时域编码的帧；

B帧：双向预测编码帧，此类型的编码帧会同时参照位于该帧前面和后面若干帧进行时域编码的帧。

一个GOP由一个I帧和若干个P帧、B帧构成。每个GOP组可以被视频解码器独立解码而不依赖于其它GOP。由于视频编码器会根据视频前后帧关系，在场景出现较大变化时自动插入I帧并创建新的GOP组，因此利用现代视频编码器的这一特点，利用视频本身的GOP信息根据I帧的放置位置对视频进行内容分割，因此根据视频内部的GOP结构对视频进行划分，省去了常用的根据前后帧的差异度进行分割方法所带来的额外差异度计算开销。

具体地，将原始视频分割成视频段，包括：

从视频头部开始按帧遍历原始视频，视频解码器反馈原始视频的视频帧的帧类型；

获取帧类型为I帧的视频帧的帧号和时间戳，将帧号和时间戳记录于索引文件中；

按照索引文件将相邻的两个帧类型为I帧的视频帧的帧号差作为子片段长度，根据子片段长度对原始视频进行二进制分割，得到若干个原始视频的视频段。

整个过程直接对视频文件本身操作，因此文件容器中附加的音频、字幕和元数据也会一并得到分割。

对于步骤S300，分割后的视频片段文件内包含有视频流、音频流和字幕流三种类型的数据，需要根据片段文件容器的类型选择合适的分离器将三种数据流分离，以便后续针对不同数据类型的不同处理。

具体地，将原始视频分离得到视频流、音频流和字幕流，包括：

获取原始视频的视频段的文件头部和文件后续名；

根据文件头部和文件后续名确定原始视频所对应的视频文件容器的类型；

根据视频文件容器的类型从多个分离器中确定目标分离器；

由目标分离器将原始视频分离得到视频流、音频流和字幕流。

视频文件容器和分离器的对应关系参考表1。

表1视频文件容器和分离器的对应关系表

视频文件容器	文件后缀	分离器
			MPEG-2Transport Stream	.ts、.m2ts	LAV Splitter
MPEG-2Program Stream	.vob	LAV Splitter
			MPEG-4Part 12ISOBMFF	.mp4、.3gp	LSMASH Splitter
Matroska	.mkv、.webm	Haali Splitter

参照图3，对于步骤S400，通过文本特征提取器对由音频流所映射的文本数据和字幕流提取文本特征向量，包括:

对音频流进行语音识别得到文本数据；

将文本数据与字幕流进行文本拼接得到综合文本；

过滤综合文本中的非文字字符得到过滤文本；

通过文本特征提取器对过滤文本提取文本特征向量。

具体地，利用语音识别算法识别音频中人物的对白、叙述性的旁白以及片头和片尾的主题歌歌词进行语音识别得到文本数据。

另外，可以将文本数据、字幕流与外部文本进行文本拼接得到综合文本。外部文本是一个可选项。

使用简单正则表达式匹配过滤掉综合文本内的非文字字符，并将综合文本输入已构造好的文本特征提取器中。

其中，文本特征提取器采用了Transformer模型的Encoder部分。

文本进入文本词嵌入的结构，首先经过分词，并将每个词对照词字典矩阵中的横纵坐标位置生成词嵌入向量。所有文本分词经过词嵌入后转化为词向量后合并拼接在一起构成词向量矩阵。

然后进行位置编码。位置编码往词向量中嵌入了该词在整个文本中的位置信息。添加位置信息能够帮助后续文本特征提取环节提取出更加准确的特征向量。

位置向量信息的计算如下：

其中，pos代表该词在整个文本中的位置，d与词嵌入向量的维度一致，2i表示偶数维度，2i+1表示奇数维度。该公式通过区分奇偶词向量，并使用相互正交的正弦三角函数和余弦三角函数作为被编码的位置信息，使得模型可以根据三角函数和差公式sin(A+B)＝sin(A)cos(B)+cos(A)sin(B)和cos(A+B)＝cos(A)cos(B)-sin(A)sin(B)快速地得出该词在全部文本中的所在位置。

然后采用多头注意力机制处理文本。在把文本输入通过多个不同的注意力机制处理后将得到的输出向量拼接在一起并一同进行线性映射，从而得到更加多样和丰富的特征向量表达。多头注意力机制可以提高特征向量的表达准确率并改善其在潜层共同映射域中的分布。

注意力机制使用Q、K、V三个矩阵来表示查询(Query)、键值(Key)和值(Value)，并通过它们之间的线性组合关系来表达注意力掩模关系。即，给定文本输入作为查询Q，模型只对与该查询相关的K进行运算处理，其它不相关的词向量处于被掩膜遮掩的状态，并由关联的K产生有意义的输出V，同时不断调整代表着注意力的掩模。

对Q、K、V分别进行线性变换，然后采用缩放点乘注意力进行处理，然后将三个结果拼接，并进行线性变换。缩放点乘注意力的步骤为：将Q和K进行矩阵乘，然后进行缩放，然后进行softmax处理，然后和V进行矩阵乘。

将多头注意力处理的输出结果和位置编码的输出结果进行第一次相加与标准化。

对第一次相加与标准化的输出结果进行前向传播，将进行前向传播前的结果与进行前向传播后的结果进行第二次相加与标准化，得到文本特征向量。

前向传播采用全连接层配合ReLU激活函数，将输入X转化为与输出矩阵的维度一致，即max(0,XW₁+b₁)W₂+b₂。

标准化的方法具体为层标准化，具体做法为将残差连接输出与多头注意力的输出或前向传播的数据相加后进行层标准化，即：LayerNorm(X+FeedForward(X))或者LayerNorm(X+MHA(X))。

输出的文本特征向量为1维特征向量，以数组的形式存储。

参照图4，对于步骤S500，通过图像特征提取器对视频流在关键帧图像的浅层表达提取图像特征向量，包括：

将原始视频的视频段的首个帧类型为I帧的视频帧作为原始视频的视频段的关键帧图像；

将关键帧图像转换为二维矩阵形式，将二维矩阵形式的关键帧图像归一化为浮点数矩阵形式；

图像特征向量为1维特征向量，以数组的形式保存。

其中，通过图像特征提取器对浮点数矩阵形式的关键帧图像提取图像特征向量，包括：

图像特征提取器使用混合了卷积和Transformer结构的CMT模型，该模型混合了卷积提取局部信息的优点和Transformer提取全部信息的优点，能够更好地提取图像的特征；并且模型的可训练参数总量更少，更加节约硬件资源。

图像特征提取器的主干网络包括局部特征提取块和四个第一卷积层。局部特征提取块为CMT根。局部特征提取块包括三个第二卷积层，第二卷积层为3x3的卷积层；第二卷积层之间通过高斯误差批正则化来修正局部特征经卷积后的分布偏差。局部特征提取块的目的是提取输入图像的局部特征。第一卷积层为跨度为2的2x2卷积层，能够将图像分辨率降低的同时提取分层的图像局部特征。

全局特征提取块为CMT块。全局特征提取块有四个，每个全局特征提取块位于两个第一卷积层之间。全局特征提取块包括局部感知层、多头注意力层、层标准化层和反转残差前馈层。局部感知层是一个带残差连接的3x3逐色深卷积，用于将输入的特征图分离成R通道的特征图、G通道的特征图、B通道的特征图分别进行卷积和组合，并与输入的特征图的残差相加，即LPU(X)＝DW(X)+X，其作用是缓解Transformer的分块过程对图像全局位置特征信息的破坏。反转残差前馈层的作用是空间变化，通过将输入特征映射到更大的空间，使模型有更好的泛化能力。反转残差前馈层包括1x1卷积层、3x3逐色深卷积层和1x1卷积层，第一个1x1卷积层的输出经过高斯误差批正则化后输入至3x3逐色深卷积层，3x3逐色深卷积层的输出和第一个1x1卷积层的输出经过高斯误差批正则化后输入至第二个1x1卷积层，第二个1x1卷积层的输出进行批正则化。反转残差前馈层可以通过以下公式表示：IRFFN(X)＝Conv(F(Conv(X)))；F(X)＝DWConv(X)+X。

对于步骤S600，采用计算余弦相似度的方式来衡量文本特征向量和图像特征向量的相似度，余弦相似度表达式如下：

输入的N样本数据的形式为D(a,b,y)。其中a、b为输入的两个向量，即分别为文本特征向量和图像特征向量。y代表样本是否配对，即相匹配的文本特征向量和图像特征向量对应样本的y_i＝1，不匹配的样本对应的y_i＝-1。cos(a_i,b_i)代表计算两个向量之间夹角的余弦值。margin代表边界阈值，即余弦值小于这个阈值的两个向量可以被认为是相同的。

在深度学习训练当中样本是以小批量的形式进行训练的，因此要对一批向量计算得到的余弦值做一个归约操作。本方法采用的归约方式为取平均数，计算方法如下：

相匹配的文本特征向量和图像特征向量之间的夹角会比不匹配的向量之间的夹角更小，因此计算得到的余弦值也会更大，使得最终结果l(x,y)会更小。

根据文本特征向量和图像特征向量的相似度将文本特征向量和图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量

采用添加动量的小批量梯度下降法根据文本特征向量和图像特征向量的相似度得到反向梯度；根据文本特征向量和图像特征向量的相似度计算得到损失函数；根据反向梯度和损失函数优化文本特征提取器的权重和图像特征提取器的权重，使得损失函数值尽可能的小，目的是使匹配的图像和文本所生成的特征尽可能的接近。

其中，带动量的随机梯度下降优化器按以下公式计算反向梯度： W＝W-αV_t。βV_t-1即为动量，/>为每次训练迭代的梯度，每个参数通过将自身当前权重W通过减去本轮学习率更新值/>使得自身权重得到反馈更新。

训练将使用大量未经标注的动漫视频片段搭配少量标注的视频片段作为训练集，使用经过标注的视频片段作为测试集和验证集。允许通过代理任务对模型进行训练，即文本特征提取器和图像特征提取器可以先在未经标注的样本上进行预训练，再在有外部标签标注的样本上进行精细训练。经过训练，同一视频片段对应的文本特征向量和图像特征向量逐渐接近一致，使得这两向量及其对应的相似度成为后续检索判断的基准。

对于步骤S700，每个视频片段的关键帧所提取的图像特征向量将连同该视频片段的其它相关信息数据一同存储入关系型数据库中以备用户检索。具体地，根据文本图像嵌入向量、视频段的第一标识、原始视频的第二标识、视频段的开始时间戳、视频段的结束时间戳构建关系数据库。

其中，文本图像嵌入向量编码为二进制形式后，以大二进制对象存储；视频段的第一标识用该视频片段的SHA-256哈希值表示，以字符串存储；原始视频的第二标识用原始视频片段SHA-256哈希值表示，以字符串存储；视频段的开始时间戳用字符串存储；视频段的结束时间戳用字符串存储。

数据库存储结构使得每一个关键帧图像的特征向量能够根据视频片段的哈希值唯一对应到一个视频片段，而一个视频片段亦可以根据原始视频哈希值以及自身位于原始视频的开始和结束时间戳唯一对应到一个原始视频文件。这样的好处是用户在检索过程中若成功匹配到了与查询文本相匹配的关键帧图像，则可以进一步定位检索内容所在的视频及其在该视频内的具体位置。

对于步骤S800，获取查询文本，根据关系数据库由查询文本从多个原始视频中检索得到目标视频。具体地，用户输入的查询文本将被送入前序步骤的文本特征提取器中，并被转换为文本特征向量；根据文本特征向量与图像特征数据库中保存的视频片段关键帧图像特征向量进行相似度计算，并将所有相似度差异小于设定阈值的关键帧图像筛选出来。最后根据被筛选出的关键帧图像根据关系数据库查找该图像对应的视频片段以及该视频片段对应的原始视频作为检索结果，并将检索结果返回给用户。

利用视频本身的GOP信息进行视频片段划分，无需额外进行场景切换检测和镜头匹配，降低了划分带来的硬件算力开销。本方法综合利用原始动漫视频的视频、音频和字幕三种不同模态的数据来源进行跨模态深度学习训练，从总体上提高了视频特征提取的准确度，进而提高最终检索的匹配率。此外，通过直接使用音频来生成文本标签，可以实现半监督或无监督深度学习训练，降低了数据标注的人力和时间成本。通过该方法，用户可以更加准确的查找和检索期望查找的番剧，接触到更大范围的关联衍生作品。

本申请的实施例，提供一种电子设备。电子设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的视频检索方法。

该电子设备可以为包括电脑等任意智能终端。

总体而言，对于电子设备的硬件结构，处理器可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案。

存储器可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器中，并由处理器来调用执行本申请实施例的方法。

输入/输出接口用于实现信息输入及输出。

通信接口用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线在设备的各个组件(例如处理器、存储器、输入/输出接口和通信接口)之间传输信息。处理器、存储器、输入/输出接口和通信接口通过总线实现彼此之间在设备内部的通信连接。

本申请的实施例，提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于执行如上的视频检索方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。尽管已经示出和描述了本申请的实施方式，本领域的普通技术人员可以理解：在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

以上是对本申请的较佳实施进行了具体说明，但本申请并不限于实施例，熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种视频检索方法，其特征在于，包括：

获取原始视频；

将所述原始视频分离得到视频流、音频流和字幕流；

2.根据权利要求1所述的视频检索方法，其特征在于，在所述将所述原始视频分离得到视频流、音频流和字幕流之前，所述视频检索方法还包括：

获取所述原始视频的视频帧的帧类型；

获取帧类型为I帧的视频帧的帧号和时间戳；

3.根据权利要求2所述的视频检索方法，其特征在于，所述将所述原始视频分离得到视频流、音频流和字幕流，包括：

获取所述原始视频的视频段的文件头部和文件后续名；

4.根据权利要求1所述的视频检索方法，其特征在于，所述通过文本特征提取器对由所述音频流所映射的文本数据和字幕流提取文本特征向量，包括:

对所述音频流进行语音识别得到文本数据；

将所述文本数据与所述字幕流进行文本拼接得到综合文本；

过滤所述综合文本中的非文字字符得到过滤文本；

5.根据权利要求2所述的视频检索方法，其特征在于，所述通过图像特征提取器对所述视频流在关键帧图像的浅层表达提取图像特征向量，包括：

6.根据权利要求5所述的视频检索方法，其特征在于，所述通过图像特征提取器对浮点数矩阵形式的关键帧图像提取图像特征向量，包括：

7.根据权利要求6所述的视频检索方法，其特征在于，所述图像特征提取器的主干网络包括局部特征提取块和多个第一卷积层，所述局部特征提取块包括多个第二卷积层，所述第二卷积层之间通过高斯误差批正则化来修正局部特征经卷积后的分布偏差。

8.根据权利要求7所述的视频检索方法，其特征在于，所述全局特征提取块位于所述第一卷积层之间；所述全局特征提取块包括局部感知层、多头注意力层、层标准化层和反转残差前馈层；所述局部感知层用于将输入的特征图分离成R通道的特征图、G通道的特征图、B通道的特征图分别进行卷积和组合，并与输入的特征图的残差相加；所述反转残差前馈层包括残差连接的第三卷积层和逐色深卷积层。

9.根据权利要求1所述的视频检索方法，其特征在于，在所述根据所述文本特征向量和所述图像特征向量的相似度将所述文本特征向量和所述图像特征向量映射至同一嵌入域并对齐，得到文本图像嵌入向量之后，所述视频检索方法还包括：

10.根据权利要求2所述的视频检索方法，其特征在于，所述根据所述文本图像嵌入向量和所述原始视频构建关系数据库，包括: