CN114896450B - 一种基于深度学习的视频时刻检索方法与系统 - Google Patents
一种基于深度学习的视频时刻检索方法与系统 Download PDFInfo
- Publication number
- CN114896450B CN114896450B CN202210393679.XA CN202210393679A CN114896450B CN 114896450 B CN114896450 B CN 114896450B CN 202210393679 A CN202210393679 A CN 202210393679A CN 114896450 B CN114896450 B CN 114896450B
- Authority
- CN
- China
- Prior art keywords
- video
- text
- global
- features
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013135 deep learning Methods 0.000 title claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 44
- 238000012216 screening Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 185
- 238000012545 processing Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 230000001373 regressive effect Effects 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000004807 localization Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的视频时刻检索方法与系统。包括:从Charades‑STA数据集筛选并输入视频片段和查询文本;提取视频特征和文本特征;利用Bi‑LSTM和多头注意力机制获取查询的句子级特征和视频的全局特征;利用Transformer将获取的各组特征分别进行对齐;修正全局的视频‑文本语义表示;将所述修正后的视频‑文本全局语义注入软注意力时序定位回归网络,回归目标视频片段的精确位置。本发明基于深度学习的方法,设计了一个多层次视频‑文本语义对齐网络,通过多头注意力机制、Transformer等结构,分别提取视频和文本的局部和全局特征,之后再利用局部特征来修正全局特征,并对视频和文本的局部、全局特征很好地进行了对齐,能够很好地提高视频时刻检索的精度。
Description
技术领域
本发明涉及计算机视觉,视频检索领域,具体涉及一种基于深度学习的视频时刻检索方法与系统。
背景技术
随着信息时代的飞速发展,每天都有大量的新闻、体育、教育类等视频涌现,而很多信息对用户而言是不必要的。此外,在一些应用领域例如视频监控领域,用户需要在海量的视频数据中快速过滤掉绝大部分无用的视频信息。在这样一个庞大的视频语料库中精确检索到用户想要的视频信息难度非常之大,但又是用户迫切需求的,而现在大部分主流视频网站(bilibli,youtube等)都只能根据查询词返回一系列相关视频,并且存在定位不准、冗余视频多等问题。
于是视频时刻检索技术便应运而生,对于一个给定的视频,用户输入一句查询词,便可返回查询词对应的起始和结束时刻,定位到视频中的具体片段,方便用户更好的检索到自己想要的内容。之前方法通常为预定义的动作列表训练分类器,并以滑动窗口的方式应用它们,给视频中各个动作分类从而完成定位。但是动作包括主语、动词和宾语三个变量,在现实世界中对应各式各样的复杂情况,因此设计一个合适的满足用户需求的活动列表是很困难的。
近年来,深度学习技术蓬勃发展,有方案提出将其结合到视频时刻检索上,首先搜集大量的视频,将视频分为多个片段,每个片段都与一个或多个同义查询词对应,将视频片段-查询作为一个样本对放到神经网络中来训练数据,达到时刻检索的目的。目前的视频时刻检索技术受限于人工智能相关技术的发展,返回的结果往往不太准确,精度仍然不能让用户满意。
目前的现有技术之一,“一种基于时间回归网络来细化时间边界的视频时刻检索方法”,该方法提取视频和文本的特征后,将其进行加、乘、全连接后拼接在一起,最后计算出回归分数。该方法的缺点是网络过于简单,最后检索结果的准确度不高。
目前的现有技术之二,“一种学习了视频时间上下文特征和文本特征的共同嵌入表示的视频时刻检索方法”,该方法中视频时间上下文特征集成了局部视频特征(反映特定时刻发生了什么)、全局特征(提供特定时刻的上下文)和时间端点特征(表明某个时刻在视频中发生),并且同时考虑了外观和光流输入模态。该方法的缺点是无法在视频中定位复杂的句子结构。
目前的现有技术之三,是用预先定义的活动列表来训练分类器,根据输入查询句的动作类别进行分类定位到相关位置。该方案的缺点是预定义各式各样复杂的动作列表非常困难。
发明内容
本发明的目的是克服现有方法的不足,提出了基于深度学习的视频时刻检索方法与系统。本发明解决的主要问题是,现有基于预定义活动列表的视频时刻检索方法无法准确定义现实世界中各式各样的活动;现有基于深度学习的视频时刻检索方法,准确度普遍低于用户预期。即如何基于深度学习,增强提取特征的全局语义相关性,从而提高视频时刻检索精确度的问题。
为了解决上述问题,本发明提出了一种基于深度学习的视频时刻检索方法,所述方法包括:
从Charades-STA数据集筛选并输入视频片段和查询文本;
利用预训练好的C3D(Convolutional 3D,3D卷积神经网络)提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe (Global Vectors for WordRepresentation,全局词向量表示)提取所述查询文本的文本特征,形成查询词向量;
利用Bi-LSTM(Bi-Long Short-Term Memory,双向长短时记忆网络) 将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征;
利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频-文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频-文本全局语义表示;
用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示;
将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置。
优选地,所述从Charades-STA数据集筛选并输入视频片段和查询文本,具体为:
所述Charades-STA数据集分为训练集和数据集,视频片段均从一整部视频中分割出来,其中训练集和测试集中的片段均来自不同视频,即训练集和测试集不会包含同一部视频,片段都有对应描述的文本,将片段-文本对剥离开来。
优选地,所述利用预训练好的C3D网络提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe提取所述查询文本的文本特征,形成查询词向量,具体为:
所述C3D网络利用3维卷积核对视频进行处理,可以提取基础的视频特征,共有8次卷积操作,4次池化操作,其中卷积核的大小均为 3*3*3,步长为1*1*1,池化核的大小为2*2*2,步长为2*2*2,得到向量维度为4096;
所述GloVe是一个典型的基于统计的获取词向量的方法,具体地,用一个词语周边其他词语出现的次数来表示每一个词语,此时每个词向量的维度等于词库容量,每一维存储着词库对应序号的词语出现在当前词语周围的次数,得到向量维度为4800。
优选地,所述利用Bi-LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征,具体为:
所述提取的视频片段向量和词向量的维度是不一样的,通过一层全连接将所述得到的两组向量维度化为一致,最终得到的都是1024维向量;
将所述维度化为一致的两组向量分别输入Bi-LSTM中,Bi-LSTM由2 组LSTM组成,而LSTM有多层神经网络构成,隐藏层增加了3个门结构即遗忘门、输入门和输出门,将两组LSTM的向量首尾对调分别拼接在一起后,使特征同时拥有过去和未来的信息,得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征;
注意力机制是对Q、K计算得到注意力权重,然后作用于V得到整个权重和输出,多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果,分别把Q、K、V都设成所述经Bi-LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征,并把Q、K、V都设成所述经Bi-LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。
优选地,所述利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频-文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频-文本全局语义表示,具体为:
将所述经Bi-LSTM处理得到的视频片段向量的概念级特征与查询词向量扩展的短语级特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本局部语义表示,其中视频片段向量的概念级特征作为Q、K,查询词向量扩展的短语级特征作为 V,具体公式如下:
UVP=MultiHead(MLPP(UP),MLPP(UP),MLPV(UV))
其中,UVP是查询词向量扩展的短语级特征以及视频片段向量的概念级特征的语义对齐的特征表示,UP是视频片段向量的概念级特征,UV是查询词向量扩展的短语级特征,MultiHead(⊙)是多头注意力机制编码器, MLP(⊙)是多层感知机;
将所述经多头注意力机制处理得到的查询词向量扩展的句子级特征与视频的全局特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本全局语义表示,其中查询词向量扩展的句子级特征作为Q、K,视频的全局特征作为V,具体公式如下:
UGS=MultiHead(MLPP(US),MLPP(US),MLPV(UG))
其中,UGS是查询词向量扩展的句子级特征与视频的全局特征的语义对齐的特征表示,UG是视频的全局特征,US是查询词向量扩展的句子级特征,MultiHead(⊙)是多头注意力机制编码器,MLP(⊙)是多层感知机。
优选地,所述用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示,具体为:
将Transformer的2层Encoder作为一个全局修正单元,经过多层全局修正单元用经所述得到的视频-文本局部语义表示来修正所述视频-文本全局语义表示,其中Transformer的Encoder由四个部分组成:一层多头注意力编码器、一层残差正则化网络、一层前馈网络加上一层残差正则化网络,工作过程具体公式如下:
其中,表示第k个GVC单元的局部语义表示,/>表示第k 个GVC单元的修正后的全局语义表示,所述工作过程公式表示用所述视频-文本局部语义表示以及所述视频-文本全局语义表示作为初始输入,经 2层Encoder的计算过程。
优选地,所述将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置,具体为:
将所述修正后的视频-文本全局语义注入软注意力多层感知机中,再加上一层Softmax,计算出每个视频的权重系数,所述MLP是一个3层神经网络,包括输入层、输出层和1层隐藏层,所述Softmax计算公式具体如下:
其中,Z={Z1,Z2,…,Zn}表示n个视频-文本全局特征;
将所述得到的修正后的视频-文本全局语义注入回归多层感知机中,回归目标时刻的精确位置。
相应地,本发明还提供了一种基于深度学习的视频时刻检索系统,包括:
视频片段和查询文本筛选及输入单元,用于从Charades-STA数据集筛选并输入视频片段和查询文本;
视频特征和文本特征提取单元,用于利用预训练好的C3D网络提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe提取所述查询文本的文本特征,形成查询词向量;
向量扩展单元,用于利用Bi-LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征;
特征对齐单元,用于利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频-文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频-文本全局语义表示;
全局视频-文本语义修正单元,用于用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示;
目标视频时刻检索单元,用于将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP 的软注意力时序定位回归网络,回归目标视频片段的精确位置。
实施本发明,具有如下有益效果:
本发明基于深度学习的方法,设计了一个多层次视频-文本语义对齐网络,通过多头注意力机制、Transformer等结构,分别提取视频和文本的局部和全局特征,之后再利用局部特征来修正全局特征,并对视频和文本的局部、全局特征很好地进行了对齐,摆脱了现有技术中对预定义活动列表的刻板限制,能够很好地提高视频时刻检索的精度。
附图说明
图1是本发明实施例的基于深度学习的视频时刻检索方法的流程图;
图2是本发明实施例的基于深度学习的视频时刻检索系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的基于深度学习的视频时刻检索方法的流程图,如图1所示,该方法包括:
S1,从Charades-STA数据集筛选并输入视频片段和查询文本;
S2,利用预训练好的C3D网络提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe提取所述查询文本的文本特征,形成查询词向量;
S3,利用Bi-LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征;
S4,利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频-文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频-文本全局语义表示;
S5,用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示;
S6,将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置。
步骤S1,具体如下:
S1-1,所述Charades-STA数据集分为训练集和数据集,视频片段均从一整部视频中分割出来,其中训练集和测试集中的片段均来自不同视频,即训练集和测试集不会包含同一部视频,片段都有对应描述的文本,将片段-文本对剥离开来。
步骤S2,具体如下:
S2-1,所述C3D网络利用3维卷积核对视频进行处理,可以提取基础的视频特征,共有8次卷积操作,4次池化操作,其中卷积核的大小均为 3*3*3,步长为1*1*1,池化核的大小为2*2*2,步长为2*2*2,得到向量维度为4096;
S2-2,所述GloVe是一个典型的基于统计的获取词向量的方法,具体地,用一个词语周边其他词语出现的次数来表示每一个词语,此时每个词向量的维度等于词库容量,每一维存储着词库对应序号的词语出现在当前词语周围的次数,得到向量维度为4800。
步骤S3,具体如下:
S3-1,所述提取的视频片段向量和词向量的维度是不一样的,通过一层全连接将所述得到的两组向量维度化为一致,最终得到的都是1024维向量;
S3-2,将所述维度化为一致的两组向量分别输入Bi-LSTM中,Bi- LSTM由2组LSTM组成,而LSTM有多层神经网络构成,隐藏层增加了 3个门结构即遗忘门、输入门和输出门,将两组LSTM的向量首尾对调分别拼接在一起后,使特征同时拥有过去和未来的信息,得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征;
S3-3,注意力机制是对Q、K计算得到注意力权重,然后作用于V得到整个权重和输出,多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果,分别把Q、K、V都设成所述经Bi-LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征,并把Q、K、V 都设成所述经Bi-LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。
步骤S4,具体如下:
S4-1,将所述经Bi-LSTM处理得到的视频的概念级特征与查询的短语级特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本局部语义表示,其中视频的概念级特征作为Q、K,查询的短语级特征作为V,具体公式如下:
UVP=MultiHead(MLPP(UP),MLPP(UP),MLPV(UV))
其中,UVP是视频中的概念语义和句子的短语级语义的语义对齐的特征表示,UP是视频的概念级特征,UV是查询的句子级特征,MultiHead(⊙) 是多头注意力机制编码器,MLP(⊙)是多层感知机;
S4-2,将所述经Bi-LSTM处理得到的视频片段向量的概念级特征与查询词向量扩展的短语级特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本局部语义表示,其中视频片段向量的概念级特征作为Q、K,查询词向量扩展的短语级特征作为V,具体公式如下:
UVP=MultiHead(MLPP(UP),MLPP(UP),MLPV(UV))
其中,UVP是查询词向量扩展的短语级特征以及视频片段向量的概念级特征的语义对齐的特征表示,UP是视频片段向量的概念级特征,UV是查询词向量扩展的短语级特征,MultiHead(⊙)是多头注意力机制编码器, MLP(⊙)是多层感知机;
将所述经多头注意力机制处理得到的查询词向量扩展的句子级特征与视频的全局特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本全局语义表示,其中查询词向量扩展的句子级特征作为Q、K,视频的全局特征作为V,具体公式如下:
UGS=MultiHead(MLPP(US),MLPP(US),MLPV(UG))
其中,UGS是查询词向量扩展的句子级特征与视频的全局特征的语义对齐的特征表示,UG是视频的全局特征,US是查询词向量扩展的句子级特征,MultiHead(⊙)是多头注意力机制编码器,MLP(⊙)是多层感知机。
步骤S5,具体如下:
S5-1,将Transformer的2层Encoder作为一个全局修正单元,经过多层全局修正单元用经所述得到的视频-文本局部语义表示来修正所述视频- 文本全局语义表示,其中Transformer的Encoder由四个部分组成:一层多头注意力编码器、一层残差正则化网络、一层前馈网络加上一层残差正则化网络,工作过程具体公式如下:
其中,表示第k个GVC单元的局部语义表示,/>表示第k 个GVC单元的修正后的全局语义表示,所述工作过程公式表示用所述视频-文本局部语义表示以及所述视频-文本全局语义表示作为初始输入,经 2层Encoder的计算过程。
步骤S6,具体如下:
S6-1,将所述修正后的视频-文本全局语义注入软注意力多层感知机中,再加上一层Softmax,计算出每个视频的权重系数,所述MLP是一个 3层神经网络,包括输入层、输出层和1层隐藏层,所述Softmax计算公式具体如下:
其中,Z={Z1,Z2,…,Zn}表示n个视频-文本全局特征;
S6-2,将所述得到的修正后的视频-文本全局语义注入回归多层感知机中,回归目标时刻的精确位置。
相应地,本发明还提供了一种基于深度学习的视频时刻检索系统,如图2所示,包括:
视频片段和查询文本筛选及输入单元1,用于从Charades-STA数据集筛选并输入视频片段和查询文本。
具体地,所述Charades-STA数据集分为训练集和数据集,视频片段均从一整部视频中分割出来,其中训练集和测试集中的片段均来自不同视频,即训练集和测试集不会包含同一部视频,片段都有对应描述的文本,将片段-文本对剥离开来。
视频特征和文本特征提取单元2,用于利用预训练好的C3D网络提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe提取所述查询文本的文本特征,形成查询词向量。
具体地,所述C3D网络利用3维卷积核对视频进行处理,可以提取基础的视频特征,共有8次卷积操作,4次池化操作,其中卷积核的大小均为3*3*3,步长为1*1*1,池化核的大小为2*2*2,步长为2*2*2,得到向量维度为4096;所述GloVe是一个典型的基于统计的获取词向量的方法,具体地,用一个词语周边其他词语出现的次数来表示每一个词语,此时每个词向量的维度等于词库容量,每一维存储着词库对应序号的词语出现在当前词语周围的次数,得到向量维度为4800。
向量扩展单元3,用于利用Bi-LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征。
具体地,所述提取的视频片段向量和词向量的维度是不一样的,通过一层全连接将所述得到的两组向量维度化为一致,最终得到的都是1024 维向量;将所述维度化为一致的两组向量分别输入Bi-LSTM中,Bi-LSTM 由2组LSTM组成,而LSTM有多层神经网络构成,隐藏层增加了3个门结构即遗忘门、输入门和输出门,将两组LSTM的向量首尾对调分别拼接在一起后,使特征同时拥有过去和未来的信息,得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征;注意力机制是对Q、K计算得到注意力权重,然后作用于V得到整个权重和输出,多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果,分别把Q、 K、V都设成所述经Bi-LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征,并把Q、K、V都设成所述经Bi-LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。
特征对齐单元4,用于利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频-文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频-文本全局语义表示。
具体地,将所述经Bi-LSTM处理得到的视频的概念级特征与查询的短语级特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本局部语义表示;将所述经多头注意力机制处理得到的查询的句子级语义与视频的全局特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本全局语义表示。
全局视频-文本语义修正单元5,用于用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示。
具体地,将Transformer的2层Encoder作为一个全局修正单元,经过多层全局修正单元用经所述得到的视频-文本局部语义表示来修正所述视频 -文本全局语义表示,其中Transformer的Encoder由四个部分组成:一层多头注意力编码器、一层残差正则化网络、一层前馈网络加上一层残差正则化网络。
目标视频时刻检索单元6,用于将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置。
具体地,将所述修正后的视频-文本全局语义注入软注意力多层感知机中,再加上一层Softmax,计算出每个视频的权重系数,所述MLP是一个 3层神经网络,包括输入层、输出层和1层隐藏层;将所述得到的修正后的视频-文本全局语义注入回归多层感知机中,回归目标时刻的精确位置。
因此,本发明基于深度学习的方法,设计了一个多层次视频-文本语义对齐网络,通过多头注意力机制、Transformer等结构,分别提取视频和文本的局部和全局特征,之后再利用局部特征来修正全局特征,并对视频和文本的局部、全局特征很好地进行了对齐,摆脱了现有技术中对预定义活动列表的刻板限制,能够很好地提高视频时刻检索的精度。
以上对本发明实施例所提供的基于深度学习的视频时刻检索方法与系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种基于深度学习的视频时刻检索方法,其特征在于,所述方法包括:
从Charades-STA数据集筛选并输入视频片段和查询文本;
利用预训练好的3D卷积神经网络C3D提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的全局词向量表示GloVe提取所述查询文本的文本特征,形成查询词向量;
利用双向长短时记忆网络Bi-LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征;
利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频-文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频-文本全局语义表示;
用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示;
将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置。
2.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述从Charades-STA数据集筛选并输入视频片段和查询文本,具体为:
所述Charades-STA数据集分为训练集和数据集,视频片段均从一整部视频中分割出来,其中训练集和测试集中的片段均来自不同视频,即训练集和测试集不会包含同一部视频,片段都有对应描述的文本,将片段-文本对剥离开来。
3.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述利用预训练好的C3D网络提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe提取所述查询文本的文本特征,形成查询词向量,具体为:
所述C3D网络利用3维卷积核对视频进行处理,可以提取基础的视频特征,共有8次卷积操作,4次池化操作,其中卷积核的大小均为3*3*3,步长为1*1*1,池化核的大小为2*2*2,步长为2*2*2,得到向量维度为4096;
所述GloVe是一个典型的基于统计的获取词向量的方法,具体地,用一个词语周边其他词语出现的次数来表示每一个词语,此时每个词向量的维度等于词库容量,每一维存储着词库对应序号的词语出现在当前词语周围的次数,得到向量维度为4800。
4.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述利用Bi-LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征,具体为:
所述提取的视频片段向量和词向量的维度是不一样的,通过一层全连接将所述得到的两组向量维度化为一致,最终得到的都是1024维向量;
将所述维度化为一致的两组向量分别输入Bi-LSTM中,Bi-LSTM由2组LSTM组成,而LSTM有多层神经网络构成,隐藏层增加了3个门结构即遗忘门、输入门和输出门,将两组LSTM的向量首尾对调分别拼接在一起后,使特征同时拥有过去和未来的信息,得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征;
注意力机制是对Q、K计算得到注意力权重,然后作用于V得到整个权重和输出,多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果,分别把Q、K、V都设成所述经Bi-LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征,并把Q、K、V都设成所述经Bi-LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。
5.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频-文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频-文本全局语义表示,具体为:
将所述经Bi-LSTM处理得到的视频片段向量的概念级特征与查询词向量扩展的短语级特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本局部语义表示,其中视频片段向量的概念级特征作为Q、K,查询词向量扩展的短语级特征作为V,具体公式如下:
UVP=MultiHead(MLPP(UP),MLPP(UP),MLPV(UV))
其中,UVP是查询词向量扩展的短语级特征以及视频片段向量的概念级特征的语义对齐的特征表示,UP是视频片段向量的概念级特征,UV是查询词向量扩展的短语级特征,MultiHead(⊙)是多头注意力机制编码器,MLP(⊙)是多层感知机;
将所述经多头注意力机制处理得到的查询词向量扩展的句子级特征与视频的全局特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本全局语义表示,其中查询词向量扩展的句子级特征作为Q、K,视频的全局特征作为V,具体公式如下:
UGS=MultiHead(MLPP(US),MLPP(US),MLPV(UG))
其中,UGS是查询词向量扩展的句子级特征与视频的全局特征的语义对齐的特征表示,UG是视频的全局特征,US是查询词向量扩展的句子级特征,MultiHead(⊙)是多头注意力机制编码器,MLP(⊙)是多层感知机。
6.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示,具体为:
将Transformer的2层Encoder作为一个全局修正单元,经过多层全局修正单元用经所述得到的视频-文本局部语义表示来修正所述视频-文本全局语义表示,其中Transformer的Encoder由四个部分组成:一层多头注意力编码器、一层残差正则化网络、一层前馈网络加上一层残差正则化网络,工作过程具体公式如下:
其中,表示第k个GVC单元的局部语义表示,/>表示第k个GVC单元的修正后的全局语义表示,所述工作过程公式表示用所述视频-文本局部语义表示以及所述视频-文本全局语义表示作为初始输入,经2层Encoder的计算过程。
7.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置,具体为:
将所述修正后的视频-文本全局语义注入软注意力多层感知机中,再加上一层Softmax,计算出每个视频的权重系数,所述MLP是一个3层神经网络,包括输入层、输出层和1层隐藏层,所述Softmax计算公式具体如下:
其中,X={Z1,Z2,...,Zn}表示n个视频-文本全局特征;
将所述得到的修正后的视频-文本全局语义注入回归多层感知机中,回归目标时刻的精确位置。
8.一种基于深度学习的视频时刻检索系统,其特征在于,所述系统包括:
视频片段和查询文本筛选及输入单元,用于从Charades-STA数据集筛选并输入视频片段和查询文本;
视频特征和文本特征提取单元,用于利用预训练好的C3D网络提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe提取所述查询文本的文本特征,形成查询词向量;
向量扩展单元,用于利用Bi-LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征;
特征对齐单元,用于利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频-文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频-文本全局语义表示;
全局视频-文本语义修正单元,用于用所述视频-文本局部语义表示来修正所述视频-文本全局语义表示;
目标视频时刻检索单元,用于将所述修正后的视频-文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置。
9.如权利要求8所述的基于深度学习的视频时刻检索系统,其特征在于,所述视频片段和查询文本筛选及输入单元,需要所述Charades-STA数据集分为训练集和数据集,视频片段均从一整部视频中分割出来,其中训练集和测试集中的片段均来自不同视频,即训练集和测试集不会包含同一部视频,片段都有对应描述的文本,将片段-文本对剥离开来。
10.如权利要求8所述的基于深度学习的视频时刻检索系统,其特征在于,所述视频特征和文本特征提取单元,需要所述C3D网络利用3维卷积核对视频进行处理,可以提取基础的视频特征,共有8次卷积操作,4次池化操作,其中卷积核的大小均为3*3*3,步长为1*1*1,池化核的大小为2*2*2,步长为2*2*2,得到向量维度为4096;所述GloVe是一个典型的基于统计的获取词向量的方法,具体地,用一个词语周边其他词语出现的次数来表示每一个词语,此时每个词向量的维度等于词库容量,每一维存储着词库对应序号的词语出现在当前词语周围的次数,得到向量维度为4800。
11.如权利要求8所述的基于深度学习的视频时刻检索系统,其特征在于,所述向量扩展单元,需要所述提取的视频片段向量和词向量的维度是不一样的,通过一层全连接将所述得到的两组向量维度化为一致,最终得到的都是1024维向量;将所述维度化为一致的两组向量分别输入Bi-LSTM中,Bi-LSTM由2组LSTM组成,而LSTM有多层神经网络构成,隐藏层增加了3个门结构即遗忘门、输入门和输出门,将两组LSTM的向量首尾对调分别拼接在一起后,使特征同时拥有过去和未来的信息,得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征;注意力机制是对Q、K计算得到注意力权重,然后作用于V得到整个权重和输出,多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果,分别把Q、K、V都设成所述经Bi-LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征,并把Q、K、V都设成所述经Bi-LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。
12.如权利要求8所述的基于深度学习的视频时刻检索系统,其特征在于,所述特征对齐单元,需要将所述经Bi-LSTM处理得到的视频的概念级特征与查询的短语级特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本局部语义表示;将所述经多头注意力机制处理得到的查询的句子级语义与视频的全局特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频-文本全局语义表示。
13.如权利要求8所述的基于深度学习的视频时刻检索系统,其特征在于,所述全局视频-文本语义修正单元,需要将Transformer的2层Encoder作为一个全局修正单元,经过多层全局修正单元用经所述得到的视频-文本局部语义表示来修正所述视频-文本全局语义表示,其中Transformer的Encoder由四个部分组成:一层多头注意力编码器、一层残差正则化网络、一层前馈网络加上一层残差正则化网络。
14.如权利要求8所述的基于深度学习的视频时刻检索系统,其特征在于,所述目标视频时刻检索单元,需要将所述修正后的视频-文本全局语义注入软注意力多层感知机中,再加上一层Softmax,计算出每个视频的权重系数,所述MLP是一个3层神经网络,包括输入层、输出层和1层隐藏层;将所述得到的修正后的视频-文本全局语义注入回归多层感知机中,回归目标时刻的精确位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210393679.XA CN114896450B (zh) | 2022-04-15 | 2022-04-15 | 一种基于深度学习的视频时刻检索方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210393679.XA CN114896450B (zh) | 2022-04-15 | 2022-04-15 | 一种基于深度学习的视频时刻检索方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114896450A CN114896450A (zh) | 2022-08-12 |
CN114896450B true CN114896450B (zh) | 2024-05-10 |
Family
ID=82717264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210393679.XA Active CN114896450B (zh) | 2022-04-15 | 2022-04-15 | 一种基于深度学习的视频时刻检索方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896450B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385946B (zh) * | 2023-06-06 | 2023-08-29 | 山东大学 | 面向视频的目标片段定位方法、系统、存储介质及设备 |
CN118035948A (zh) * | 2024-01-08 | 2024-05-14 | 浙江微帮忙教育科技有限公司 | 一种大五人格评测分析方法及其装置 |
CN118170948B (zh) * | 2024-03-12 | 2024-09-20 | 天津大学 | 一种基于样本引导的时域目标定位方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
WO2021092631A2 (en) * | 2021-02-26 | 2021-05-14 | Innopeak Technology, Inc. | Weakly-supervised text-based video moment retrieval |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113177141A (zh) * | 2021-05-24 | 2021-07-27 | 北湾科技(武汉)有限公司 | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 |
CN113204675A (zh) * | 2021-07-07 | 2021-08-03 | 成都考拉悠然科技有限公司 | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238093B2 (en) * | 2019-10-15 | 2022-02-01 | Adobe Inc. | Video retrieval based on encoding temporal relationships among video frames |
-
2022
- 2022-04-15 CN CN202210393679.XA patent/CN114896450B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
WO2021092631A2 (en) * | 2021-02-26 | 2021-05-14 | Innopeak Technology, Inc. | Weakly-supervised text-based video moment retrieval |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
CN113177141A (zh) * | 2021-05-24 | 2021-07-27 | 北湾科技(武汉)有限公司 | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 |
CN113204675A (zh) * | 2021-07-07 | 2021-08-03 | 成都考拉悠然科技有限公司 | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 |
Non-Patent Citations (2)
Title |
---|
Fusing Temporally Distributed Multi-Modal Semantic Clues for Video Question Answering;Fuwei Zhang等;2021 IEEE International Conference on Multimedia and Expo (ICME);20210609;全文 * |
基于视觉-文本关系对齐的跨模态视频片段检索;陈卓;杜昊;吴雨菲;徐童;陈恩红;;中国科学:信息科学;20200612(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114896450A (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114896450B (zh) | 一种基于深度学习的视频时刻检索方法与系统 | |
CN111708873B (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN111538908B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN115033670B (zh) | 多粒度特征融合的跨模态图文检索方法 | |
CN112650886B (zh) | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 | |
CN108536735B (zh) | 基于多通道自编码器的多模态词汇表示方法与系统 | |
CN112925904B (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
CN113011172B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113204675B (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
CN110991515B (zh) | 一种融合视觉上下文的图像描述方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN112507717A (zh) | 融合实体关键字特征的医疗领域实体分类方法 | |
Ishmam et al. | From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN109086463A (zh) | 一种基于区域卷积神经网络的问答社区标签推荐方法 | |
CN116775927A (zh) | 基于局部上下文的跨模态图文检索方法及系统 | |
Kan et al. | A Unified Generative Framework based on Prompt Learning for Various Information Extraction Tasks | |
CN114911930B (zh) | 一种全局与局部互补的双向注意的视频问答方法与系统 | |
CN116975403A (zh) | 内容检索模型及内容检索处理方法、装置和计算机设备 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
Wang et al. | A coarse to fine question answering system based on reinforcement learning | |
Rohitharun et al. | Image Captioning Using CNN and RNN | |
Biswas et al. | Design and Implementation for Research Paper Classification Based on CNN and RNN Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |