CN114896450B

CN114896450B - 一种基于深度学习的视频时刻检索方法与系统

Info

Publication number: CN114896450B
Application number: CN202210393679.XA
Authority: CN
Inventors: 周凡; 黎金宇; 林格; 林淑金
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2024-05-10
Anticipated expiration: 2042-04-15
Also published as: CN114896450A

Abstract

本发明公开了一种基于深度学习的视频时刻检索方法与系统。包括：从Charades‑STA数据集筛选并输入视频片段和查询文本；提取视频特征和文本特征；利用Bi‑LSTM和多头注意力机制获取查询的句子级特征和视频的全局特征；利用Transformer将获取的各组特征分别进行对齐；修正全局的视频‑文本语义表示；将所述修正后的视频‑文本全局语义注入软注意力时序定位回归网络，回归目标视频片段的精确位置。本发明基于深度学习的方法，设计了一个多层次视频‑文本语义对齐网络，通过多头注意力机制、Transformer等结构，分别提取视频和文本的局部和全局特征，之后再利用局部特征来修正全局特征，并对视频和文本的局部、全局特征很好地进行了对齐，能够很好地提高视频时刻检索的精度。

Description

一种基于深度学习的视频时刻检索方法与系统

技术领域

本发明涉及计算机视觉，视频检索领域，具体涉及一种基于深度学习的视频时刻检索方法与系统。

背景技术

随着信息时代的飞速发展，每天都有大量的新闻、体育、教育类等视频涌现，而很多信息对用户而言是不必要的。此外，在一些应用领域例如视频监控领域，用户需要在海量的视频数据中快速过滤掉绝大部分无用的视频信息。在这样一个庞大的视频语料库中精确检索到用户想要的视频信息难度非常之大，但又是用户迫切需求的，而现在大部分主流视频网站(bilibli，youtube等)都只能根据查询词返回一系列相关视频，并且存在定位不准、冗余视频多等问题。

于是视频时刻检索技术便应运而生，对于一个给定的视频，用户输入一句查询词，便可返回查询词对应的起始和结束时刻，定位到视频中的具体片段，方便用户更好的检索到自己想要的内容。之前方法通常为预定义的动作列表训练分类器，并以滑动窗口的方式应用它们，给视频中各个动作分类从而完成定位。但是动作包括主语、动词和宾语三个变量，在现实世界中对应各式各样的复杂情况，因此设计一个合适的满足用户需求的活动列表是很困难的。

近年来，深度学习技术蓬勃发展，有方案提出将其结合到视频时刻检索上，首先搜集大量的视频，将视频分为多个片段，每个片段都与一个或多个同义查询词对应，将视频片段-查询作为一个样本对放到神经网络中来训练数据，达到时刻检索的目的。目前的视频时刻检索技术受限于人工智能相关技术的发展，返回的结果往往不太准确，精度仍然不能让用户满意。

目前的现有技术之一，“一种基于时间回归网络来细化时间边界的视频时刻检索方法”，该方法提取视频和文本的特征后，将其进行加、乘、全连接后拼接在一起，最后计算出回归分数。该方法的缺点是网络过于简单，最后检索结果的准确度不高。

目前的现有技术之二，“一种学习了视频时间上下文特征和文本特征的共同嵌入表示的视频时刻检索方法”，该方法中视频时间上下文特征集成了局部视频特征(反映特定时刻发生了什么)、全局特征(提供特定时刻的上下文)和时间端点特征(表明某个时刻在视频中发生)，并且同时考虑了外观和光流输入模态。该方法的缺点是无法在视频中定位复杂的句子结构。

目前的现有技术之三，是用预先定义的活动列表来训练分类器，根据输入查询句的动作类别进行分类定位到相关位置。该方案的缺点是预定义各式各样复杂的动作列表非常困难。

发明内容

本发明的目的是克服现有方法的不足，提出了基于深度学习的视频时刻检索方法与系统。本发明解决的主要问题是，现有基于预定义活动列表的视频时刻检索方法无法准确定义现实世界中各式各样的活动；现有基于深度学习的视频时刻检索方法，准确度普遍低于用户预期。即如何基于深度学习，增强提取特征的全局语义相关性，从而提高视频时刻检索精确度的问题。

为了解决上述问题，本发明提出了一种基于深度学习的视频时刻检索方法，所述方法包括：

从Charades-STA数据集筛选并输入视频片段和查询文本；

利用预训练好的C3D(Convolutional 3D，3D卷积神经网络)提取所述视频片段的视频特征，形成视频片段向量，利用预训练好的GloVe (Global Vectors for WordRepresentation，全局词向量表示)提取所述查询文本的文本特征，形成查询词向量；

利用Bi-LSTM(Bi-Long Short-Term Memory，双向长短时记忆网络) 将所述查询词向量扩展为短语级特征，获取所述视频片段向量的概念级特征，接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征；

利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐，形成视频-文本局部语义表示，对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐，形成视频-文本全局语义表示；

用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示；

将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络，回归目标视频片段的精确位置。

优选地，所述从Charades-STA数据集筛选并输入视频片段和查询文本，具体为：

所述Charades-STA数据集分为训练集和数据集，视频片段均从一整部视频中分割出来，其中训练集和测试集中的片段均来自不同视频，即训练集和测试集不会包含同一部视频，片段都有对应描述的文本，将片段-文本对剥离开来。

优选地，所述利用预训练好的C3D网络提取所述视频片段的视频特征，形成视频片段向量，利用预训练好的GloVe提取所述查询文本的文本特征，形成查询词向量，具体为：

所述C3D网络利用3维卷积核对视频进行处理，可以提取基础的视频特征，共有8次卷积操作，4次池化操作，其中卷积核的大小均为 3*3*3，步长为1*1*1，池化核的大小为2*2*2，步长为2*2*2，得到向量维度为4096；

所述GloVe是一个典型的基于统计的获取词向量的方法，具体地，用一个词语周边其他词语出现的次数来表示每一个词语，此时每个词向量的维度等于词库容量，每一维存储着词库对应序号的词语出现在当前词语周围的次数，得到向量维度为4800。

优选地，所述利用Bi-LSTM将所述查询词向量扩展为短语级特征，获取所述视频片段向量的概念级特征，接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征，具体为：

所述提取的视频片段向量和词向量的维度是不一样的，通过一层全连接将所述得到的两组向量维度化为一致，最终得到的都是1024维向量；

将所述维度化为一致的两组向量分别输入Bi-LSTM中，Bi-LSTM由2 组LSTM组成，而LSTM有多层神经网络构成，隐藏层增加了3个门结构即遗忘门、输入门和输出门，将两组LSTM的向量首尾对调分别拼接在一起后，使特征同时拥有过去和未来的信息，得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征；

注意力机制是对Q、K计算得到注意力权重，然后作用于V得到整个权重和输出，多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果，分别把Q、K、V都设成所述经Bi-LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征，并把Q、K、V都设成所述经Bi-LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。

优选地，所述利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐，形成视频-文本局部语义表示，对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐，形成视频-文本全局语义表示，具体为：

将所述经Bi-LSTM处理得到的视频片段向量的概念级特征与查询词向量扩展的短语级特征经过一层MLP后，利用Transformer的多头注意力机制进行特征的融合和语义上的对齐，得到视频-文本局部语义表示，其中视频片段向量的概念级特征作为Q、K，查询词向量扩展的短语级特征作为 V，具体公式如下：

U^VP＝MultiHead(MLP_P(U^P),MLP_P(U^P),MLP_V(U^V))

其中，U^VP是查询词向量扩展的短语级特征以及视频片段向量的概念级特征的语义对齐的特征表示，U^P是视频片段向量的概念级特征，U^V是查询词向量扩展的短语级特征，MultiHead(⊙)是多头注意力机制编码器， MLP(⊙)是多层感知机；

将所述经多头注意力机制处理得到的查询词向量扩展的句子级特征与视频的全局特征经过一层MLP后，利用Transformer的多头注意力机制进行特征的融合和语义上的对齐，得到视频-文本全局语义表示，其中查询词向量扩展的句子级特征作为Q、K，视频的全局特征作为V，具体公式如下：

U^GS＝MultiHead(MLP_P(U^S),MLP_P(U^S),MLP_V(U^G))

其中，U^GS是查询词向量扩展的句子级特征与视频的全局特征的语义对齐的特征表示，U^G是视频的全局特征，U^S是查询词向量扩展的句子级特征，MultiHead(⊙)是多头注意力机制编码器，MLP(⊙)是多层感知机。

优选地，所述用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示，具体为：

将Transformer的2层Encoder作为一个全局修正单元，经过多层全局修正单元用经所述得到的视频-文本局部语义表示来修正所述视频-文本全局语义表示，其中Transformer的Encoder由四个部分组成：一层多头注意力编码器、一层残差正则化网络、一层前馈网络加上一层残差正则化网络，工作过程具体公式如下：

其中，表示第k个GVC单元的局部语义表示，/>表示第k 个GVC单元的修正后的全局语义表示，所述工作过程公式表示用所述视频-文本局部语义表示以及所述视频-文本全局语义表示作为初始输入，经 2层Encoder的计算过程。

优选地，所述将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络，回归目标视频片段的精确位置，具体为：

将所述修正后的视频-文本全局语义注入软注意力多层感知机中，再加上一层Softmax，计算出每个视频的权重系数，所述MLP是一个3层神经网络，包括输入层、输出层和1层隐藏层，所述Softmax计算公式具体如下：

其中，Z＝{Z₁,Z₂,…,Z_n}表示n个视频-文本全局特征；

将所述得到的修正后的视频-文本全局语义注入回归多层感知机中，回归目标时刻的精确位置。

相应地，本发明还提供了一种基于深度学习的视频时刻检索系统，包括：

视频片段和查询文本筛选及输入单元，用于从Charades-STA数据集筛选并输入视频片段和查询文本；

视频特征和文本特征提取单元，用于利用预训练好的C3D网络提取所述视频片段的视频特征，形成视频片段向量，利用预训练好的GloVe提取所述查询文本的文本特征，形成查询词向量；

向量扩展单元，用于利用Bi-LSTM将所述查询词向量扩展为短语级特征，获取所述视频片段向量的概念级特征，接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征；

特征对齐单元，用于利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐，形成视频-文本局部语义表示，对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐，形成视频-文本全局语义表示；

全局视频-文本语义修正单元，用于用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示；

目标视频时刻检索单元，用于将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP 的软注意力时序定位回归网络，回归目标视频片段的精确位置。

实施本发明，具有如下有益效果：

本发明基于深度学习的方法，设计了一个多层次视频-文本语义对齐网络，通过多头注意力机制、Transformer等结构，分别提取视频和文本的局部和全局特征，之后再利用局部特征来修正全局特征，并对视频和文本的局部、全局特征很好地进行了对齐，摆脱了现有技术中对预定义活动列表的刻板限制，能够很好地提高视频时刻检索的精度。

附图说明

图1是本发明实施例的基于深度学习的视频时刻检索方法的流程图；

图2是本发明实施例的基于深度学习的视频时刻检索系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的基于深度学习的视频时刻检索方法的流程图，如图1所示，该方法包括：

S1，从Charades-STA数据集筛选并输入视频片段和查询文本；

S2，利用预训练好的C3D网络提取所述视频片段的视频特征，形成视频片段向量，利用预训练好的GloVe提取所述查询文本的文本特征，形成查询词向量；

S3，利用Bi-LSTM将所述查询词向量扩展为短语级特征，获取所述视频片段向量的概念级特征，接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征；

S4，利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐，形成视频-文本局部语义表示，对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐，形成视频-文本全局语义表示；

S5，用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示；

S6，将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络，回归目标视频片段的精确位置。

步骤S1，具体如下：

S1-1，所述Charades-STA数据集分为训练集和数据集，视频片段均从一整部视频中分割出来，其中训练集和测试集中的片段均来自不同视频，即训练集和测试集不会包含同一部视频，片段都有对应描述的文本，将片段-文本对剥离开来。

步骤S2，具体如下：

S2-1，所述C3D网络利用3维卷积核对视频进行处理，可以提取基础的视频特征，共有8次卷积操作，4次池化操作，其中卷积核的大小均为 3*3*3，步长为1*1*1，池化核的大小为2*2*2，步长为2*2*2，得到向量维度为4096；

S2-2，所述GloVe是一个典型的基于统计的获取词向量的方法，具体地，用一个词语周边其他词语出现的次数来表示每一个词语，此时每个词向量的维度等于词库容量，每一维存储着词库对应序号的词语出现在当前词语周围的次数，得到向量维度为4800。

步骤S3，具体如下：

S3-1，所述提取的视频片段向量和词向量的维度是不一样的，通过一层全连接将所述得到的两组向量维度化为一致，最终得到的都是1024维向量；

S3-2，将所述维度化为一致的两组向量分别输入Bi-LSTM中，Bi- LSTM由2组LSTM组成，而LSTM有多层神经网络构成，隐藏层增加了 3个门结构即遗忘门、输入门和输出门，将两组LSTM的向量首尾对调分别拼接在一起后，使特征同时拥有过去和未来的信息，得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征；

S3-3，注意力机制是对Q、K计算得到注意力权重，然后作用于V得到整个权重和输出，多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果，分别把Q、K、V都设成所述经Bi-LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征，并把Q、K、V 都设成所述经Bi-LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。

步骤S4，具体如下：

S4-1，将所述经Bi-LSTM处理得到的视频的概念级特征与查询的短语级特征经过一层MLP后，利用Transformer的多头注意力机制进行特征的融合和语义上的对齐，得到视频-文本局部语义表示，其中视频的概念级特征作为Q、K，查询的短语级特征作为V，具体公式如下：

U^VP＝MultiHead(MLP_P(U^P),MLP_P(U^P),MLP_V(U^V))

其中，U^VP是视频中的概念语义和句子的短语级语义的语义对齐的特征表示，U^P是视频的概念级特征，U^V是查询的句子级特征，MultiHead(⊙) 是多头注意力机制编码器，MLP(⊙)是多层感知机；

S4-2，将所述经Bi-LSTM处理得到的视频片段向量的概念级特征与查询词向量扩展的短语级特征经过一层MLP后，利用Transformer的多头注意力机制进行特征的融合和语义上的对齐，得到视频-文本局部语义表示，其中视频片段向量的概念级特征作为Q、K，查询词向量扩展的短语级特征作为V，具体公式如下：

U^VP＝MultiHead(MLP_P(U^P),MLP_P(U^P),MLP_V(U^V))

U^GS＝MultiHead(MLP_P(U^S),MLP_P(U^S),MLP_V(U^G))

步骤S5，具体如下：

S5-1，将Transformer的2层Encoder作为一个全局修正单元，经过多层全局修正单元用经所述得到的视频-文本局部语义表示来修正所述视频- 文本全局语义表示，其中Transformer的Encoder由四个部分组成：一层多头注意力编码器、一层残差正则化网络、一层前馈网络加上一层残差正则化网络，工作过程具体公式如下：

步骤S6，具体如下：

S6-1，将所述修正后的视频-文本全局语义注入软注意力多层感知机中，再加上一层Softmax，计算出每个视频的权重系数，所述MLP是一个 3层神经网络，包括输入层、输出层和1层隐藏层，所述Softmax计算公式具体如下：

其中，Z＝{Z₁,Z₂,…,Z_n}表示n个视频-文本全局特征；

S6-2，将所述得到的修正后的视频-文本全局语义注入回归多层感知机中，回归目标时刻的精确位置。

相应地，本发明还提供了一种基于深度学习的视频时刻检索系统，如图2所示，包括：

视频片段和查询文本筛选及输入单元1，用于从Charades-STA数据集筛选并输入视频片段和查询文本。

具体地，所述Charades-STA数据集分为训练集和数据集，视频片段均从一整部视频中分割出来，其中训练集和测试集中的片段均来自不同视频，即训练集和测试集不会包含同一部视频，片段都有对应描述的文本，将片段-文本对剥离开来。

视频特征和文本特征提取单元2，用于利用预训练好的C3D网络提取所述视频片段的视频特征，形成视频片段向量，利用预训练好的GloVe提取所述查询文本的文本特征，形成查询词向量。

具体地，所述C3D网络利用3维卷积核对视频进行处理，可以提取基础的视频特征，共有8次卷积操作，4次池化操作，其中卷积核的大小均为3*3*3，步长为1*1*1，池化核的大小为2*2*2，步长为2*2*2，得到向量维度为4096；所述GloVe是一个典型的基于统计的获取词向量的方法，具体地，用一个词语周边其他词语出现的次数来表示每一个词语，此时每个词向量的维度等于词库容量，每一维存储着词库对应序号的词语出现在当前词语周围的次数，得到向量维度为4800。

向量扩展单元3，用于利用Bi-LSTM将所述查询词向量扩展为短语级特征，获取所述视频片段向量的概念级特征，接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征。

具体地，所述提取的视频片段向量和词向量的维度是不一样的，通过一层全连接将所述得到的两组向量维度化为一致，最终得到的都是1024 维向量；将所述维度化为一致的两组向量分别输入Bi-LSTM中，Bi-LSTM 由2组LSTM组成，而LSTM有多层神经网络构成，隐藏层增加了3个门结构即遗忘门、输入门和输出门，将两组LSTM的向量首尾对调分别拼接在一起后，使特征同时拥有过去和未来的信息，得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征；注意力机制是对Q、K计算得到注意力权重，然后作用于V得到整个权重和输出，多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果，分别把Q、 K、V都设成所述经Bi-LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征，并把Q、K、V都设成所述经Bi-LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。

特征对齐单元4，用于利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐，形成视频-文本局部语义表示，对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐，形成视频-文本全局语义表示。

具体地，将所述经Bi-LSTM处理得到的视频的概念级特征与查询的短语级特征经过一层MLP后，利用Transformer的多头注意力机制进行特征的融合和语义上的对齐，得到视频-文本局部语义表示；将所述经多头注意力机制处理得到的查询的句子级语义与视频的全局特征经过一层MLP后，利用Transformer的多头注意力机制进行特征的融合和语义上的对齐，得到视频-文本全局语义表示。

全局视频-文本语义修正单元5，用于用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示。

具体地，将Transformer的2层Encoder作为一个全局修正单元，经过多层全局修正单元用经所述得到的视频-文本局部语义表示来修正所述视频 -文本全局语义表示，其中Transformer的Encoder由四个部分组成：一层多头注意力编码器、一层残差正则化网络、一层前馈网络加上一层残差正则化网络。

目标视频时刻检索单元6，用于将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络，回归目标视频片段的精确位置。

具体地，将所述修正后的视频-文本全局语义注入软注意力多层感知机中，再加上一层Softmax，计算出每个视频的权重系数，所述MLP是一个 3层神经网络，包括输入层、输出层和1层隐藏层；将所述得到的修正后的视频-文本全局语义注入回归多层感知机中，回归目标时刻的精确位置。

因此，本发明基于深度学习的方法，设计了一个多层次视频-文本语义对齐网络，通过多头注意力机制、Transformer等结构，分别提取视频和文本的局部和全局特征，之后再利用局部特征来修正全局特征，并对视频和文本的局部、全局特征很好地进行了对齐，摆脱了现有技术中对预定义活动列表的刻板限制，能够很好地提高视频时刻检索的精度。

以上对本发明实施例所提供的基于深度学习的视频时刻检索方法与系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的视频时刻检索方法，其特征在于，所述方法包括：

从Charades-STA数据集筛选并输入视频片段和查询文本；

利用预训练好的3D卷积神经网络C3D提取所述视频片段的视频特征，形成视频片段向量，利用预训练好的全局词向量表示GloVe提取所述查询文本的文本特征，形成查询词向量；

利用双向长短时记忆网络Bi-LSTM将所述查询词向量扩展为短语级特征，获取所述视频片段向量的概念级特征，接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征；

2.如权利要求1所述的基于深度学习的视频时刻检索方法，其特征在于，所述从Charades-STA数据集筛选并输入视频片段和查询文本，具体为：

3.如权利要求1所述的基于深度学习的视频时刻检索方法，其特征在于，所述利用预训练好的C3D网络提取所述视频片段的视频特征，形成视频片段向量，利用预训练好的GloVe提取所述查询文本的文本特征，形成查询词向量，具体为：

所述C3D网络利用3维卷积核对视频进行处理，可以提取基础的视频特征，共有8次卷积操作，4次池化操作，其中卷积核的大小均为3*3*3，步长为1*1*1，池化核的大小为2*2*2，步长为2*2*2，得到向量维度为4096；

4.如权利要求1所述的基于深度学习的视频时刻检索方法，其特征在于，所述利用Bi-LSTM将所述查询词向量扩展为短语级特征，获取所述视频片段向量的概念级特征，接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征，具体为：

将所述维度化为一致的两组向量分别输入Bi-LSTM中，Bi-LSTM由2组LSTM组成，而LSTM有多层神经网络构成，隐藏层增加了3个门结构即遗忘门、输入门和输出门，将两组LSTM的向量首尾对调分别拼接在一起后，使特征同时拥有过去和未来的信息，得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征；

5.如权利要求1所述的基于深度学习的视频时刻检索方法，其特征在于，所述利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐，形成视频-文本局部语义表示，对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐，形成视频-文本全局语义表示，具体为：

将所述经Bi-LSTM处理得到的视频片段向量的概念级特征与查询词向量扩展的短语级特征经过一层MLP后，利用Transformer的多头注意力机制进行特征的融合和语义上的对齐，得到视频-文本局部语义表示，其中视频片段向量的概念级特征作为Q、K，查询词向量扩展的短语级特征作为V，具体公式如下：

U^VP＝MultiHead(MLP_P(U^P),MLP_P(U^P),MLP_V(U^V))

其中，U^VP是查询词向量扩展的短语级特征以及视频片段向量的概念级特征的语义对齐的特征表示，U^P是视频片段向量的概念级特征，U^V是查询词向量扩展的短语级特征，MultiHead(⊙)是多头注意力机制编码器，MLP(⊙)是多层感知机；

U^GS＝MultiHead(MLP_P(U^S),MLP_P(U^S),MLP_V(U^G))

6.如权利要求1所述的基于深度学习的视频时刻检索方法，其特征在于，所述用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示，具体为：

其中，表示第k个GVC单元的局部语义表示，/>表示第k个GVC单元的修正后的全局语义表示，所述工作过程公式表示用所述视频-文本局部语义表示以及所述视频-文本全局语义表示作为初始输入，经2层Encoder的计算过程。

7.如权利要求1所述的基于深度学习的视频时刻检索方法，其特征在于，所述将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络，回归目标视频片段的精确位置，具体为：

其中，X＝{Z₁,Z₂,...,Z_n}表示n个视频-文本全局特征；

8.一种基于深度学习的视频时刻检索系统，其特征在于，所述系统包括：

目标视频时刻检索单元，用于将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络，回归目标视频片段的精确位置。

9.如权利要求8所述的基于深度学习的视频时刻检索系统，其特征在于，所述视频片段和查询文本筛选及输入单元，需要所述Charades-STA数据集分为训练集和数据集，视频片段均从一整部视频中分割出来，其中训练集和测试集中的片段均来自不同视频，即训练集和测试集不会包含同一部视频，片段都有对应描述的文本，将片段-文本对剥离开来。

10.如权利要求8所述的基于深度学习的视频时刻检索系统，其特征在于，所述视频特征和文本特征提取单元，需要所述C3D网络利用3维卷积核对视频进行处理，可以提取基础的视频特征，共有8次卷积操作，4次池化操作，其中卷积核的大小均为3*3*3，步长为1*1*1，池化核的大小为2*2*2，步长为2*2*2，得到向量维度为4096；所述GloVe是一个典型的基于统计的获取词向量的方法，具体地，用一个词语周边其他词语出现的次数来表示每一个词语，此时每个词向量的维度等于词库容量，每一维存储着词库对应序号的词语出现在当前词语周围的次数，得到向量维度为4800。

11.如权利要求8所述的基于深度学习的视频时刻检索系统，其特征在于，所述向量扩展单元，需要所述提取的视频片段向量和词向量的维度是不一样的，通过一层全连接将所述得到的两组向量维度化为一致，最终得到的都是1024维向量；将所述维度化为一致的两组向量分别输入Bi-LSTM中，Bi-LSTM由2组LSTM组成，而LSTM有多层神经网络构成，隐藏层增加了3个门结构即遗忘门、输入门和输出门，将两组LSTM的向量首尾对调分别拼接在一起后，使特征同时拥有过去和未来的信息，得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征；注意力机制是对Q、K计算得到注意力权重，然后作用于V得到整个权重和输出，多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果，分别把Q、K、V都设成所述经Bi-LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征，并把Q、K、V都设成所述经Bi-LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。

12.如权利要求8所述的基于深度学习的视频时刻检索系统，其特征在于，所述特征对齐单元，需要将所述经Bi-LSTM处理得到的视频的概念级特征与查询的短语级特征经过一层MLP后，利用Transformer的多头注意力机制进行特征的融合和语义上的对齐，得到视频-文本局部语义表示；将所述经多头注意力机制处理得到的查询的句子级语义与视频的全局特征经过一层MLP后，利用Transformer的多头注意力机制进行特征的融合和语义上的对齐，得到视频-文本全局语义表示。

13.如权利要求8所述的基于深度学习的视频时刻检索系统，其特征在于，所述全局视频-文本语义修正单元，需要将Transformer的2层Encoder作为一个全局修正单元，经过多层全局修正单元用经所述得到的视频-文本局部语义表示来修正所述视频-文本全局语义表示，其中Transformer的Encoder由四个部分组成：一层多头注意力编码器、一层残差正则化网络、一层前馈网络加上一层残差正则化网络。

14.如权利要求8所述的基于深度学习的视频时刻检索系统，其特征在于，所述目标视频时刻检索单元，需要将所述修正后的视频-文本全局语义注入软注意力多层感知机中，再加上一层Softmax，计算出每个视频的权重系数，所述MLP是一个3层神经网络，包括输入层、输出层和1层隐藏层；将所述得到的修正后的视频-文本全局语义注入回归多层感知机中，回归目标时刻的精确位置。