CN115309939A - 基于时空语义分解的视频片段定位系统 - Google Patents

基于时空语义分解的视频片段定位系统 Download PDF

Info

Publication number
CN115309939A
CN115309939A CN202210869465.5A CN202210869465A CN115309939A CN 115309939 A CN115309939 A CN 115309939A CN 202210869465 A CN202210869465 A CN 202210869465A CN 115309939 A CN115309939 A CN 115309939A
Authority
CN
China
Prior art keywords
video
attention
frame
text
video stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210869465.5A
Other languages
English (en)
Inventor
张玥杰
许元武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202210869465.5A priority Critical patent/CN115309939A/zh
Publication of CN115309939A publication Critical patent/CN115309939A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于多模态检索技术领域,具体为基于时空语义分解的视频片段定位系统。本发明系统包括视频和文本的编码器模块、时空语义分解模块、多模态注意力模块、片段边界定位模块;视频和文本的编码器模块分别对视频和文本进行特征提取,生成含有上下文信息的特征;时空语义分解模块将文本按照词性分为空间词和时间词,将视频以不同的帧率采样得到快视频流和慢视频流;多模态注意力模块先计算空间词和慢视频流的互注意力,将结果和快视频流融合,然后再计算时间词和快视频流的互注意力,得到两种模态的融合特征;片段边界定位模块先计算目标片段终点的帧,然后在预测的终点帧之前的帧中回归起点帧。本发明可提高对相似查询的区分能力,提升系统性能。

Description

基于时空语义分解的视频片段定位系统
技术领域
本发明属于多模态检索技术领域,具体涉及基于时空语义分解的视频片段定位系统。
背景技术
随着互联网上视频资源的快速增长,视频理解相关的任务正受到越来越多研究者的关注。作为其中一个非常值得探究的问题,视频片段定位的目标是对于给定的一段没有剪辑过的长视频和一个以自然语言表述的查询,定位出查询所描述的片段。该任务对于视频内容解析、视频检索都起到至关重要的作用。由于视频片段定位任务的查询可为任意自然语言表达的句子,其灵活性和可用性远超之前使用必须固定类标签的视频片段检测、分类等相关任务。
视频片段定位任务的主流方法训练一个分类模型来判断每个候选区间与查询是否匹配,或判断每一帧是否为起点/终点帧。对于视频和文本的处理,现有工作一般先利用独立的特征编码器对视频/文本进行编码,再使用注意力机制、图神经网络等模块将视频、文本特征进行融合,计算文本语义在视频帧中的匹配。在上述处理中,现有工作往往将视频/文本看作一个整体,而忽略二者分别在时空维度的语义。对于视频片段定位任务,由于视频的完整性,不同的文本查询往往含有相同物体、场景等空间语义,而动作、位移等时间语义不同。本系统将视频和文本分别进行时空分解,在计算多模态注意力时具有较现有工作更细的粒度。
早期的研究工作主要采取先提出候选区间,再计算匹配分数的模式。在这种模式下,系统需要首先枚举一系列不同尺度、不同位置的候选区间,然后逐一计算每个候选区间与查询的匹配分数,最后选取匹配分数排名靠前的区间作为输出。但这种两阶段的方法存在以下缺点:(1)为尽可能让预测结果能够覆盖所有的可能区间,系统需要提出尽可能多的候选区间,消耗非常多的计算资源;(2)为平衡计算量和系统性能之间的矛盾,一般需要根据数据集的先验情况来设计候选区间的分布,从而使用较少的候选区间覆盖较多的训练样本,但这种设计需要对不同的数据集做不同的精心设计,既需要一定的工作量也不具备可扩展性。为克服两阶段方法的缺点,现有方法提出两种替代策略:(1)分别建模每一帧是否为起点/终点的边缘分布,将概率最高的帧作为预测的边界;(2)直接在视频特征上分别回归出归一化的起点和终点坐标。尽管这两种策略摆脱两阶段方法的缺点,但由于这两种策略都假设目标片段起点和终点之间的独立性,所取得的性能往往不如两阶段方法。本系统中片段边界定位模块的两步预测策略,采取先分类终点帧,再回归起点帧的计算流程,显式建立目标片段起点和终点之间的条件依赖性,从而既继承上述两种策略计算量低的优点,又提升系统的定位性能。
发明内容
本发明的目的在于提供一种基于时空语义分解的视频片段定位系统,以解决视频片段定位中现有模型无法区分具有相同空间语义的查询的问题。
本发明提供基于时空语义分解的视频片段定位系统,包括视频和文本的编码器模块、时空语义分解模块、多模态注意力模块以及片段边界定位模块;所述视频和文本的编码器模块分别对视频和文本进行特征提取,生成含有上下文信息的特征;所述时空语义分解模块将文本按照词性分为空间词和时间词,将视频以不同的帧率采样得到快视频流和慢视频流;所述多模态注意力模块先计算空间词和慢视频流的互注意力,将结果和快视频流融合,然后再计算时间词和快视频流的互注意力,得到两种模态的融合特征;所述片段边界定位模块先计算目标片段终点的帧,然后在预测的终点帧之前的帧中回归起点帧。本发明通过分别计算视频和文本的时空语义,并将视频帧中出现的空间语义作为时间维度上定位的先验,提升对相似查询的区分能力。片段边界定位模块使用的两步预测方法显式建立目标片段起点和终点之间的条件依赖性,进一步提升系统性能。
本发明中,所述的视频编码器模块由骨干网络、Transformer编码器组成;文本编码器模块由骨干网络、Transformer编码器以及关系图卷积网络组成。其中:
视频编码器模块中的骨干网络采用C3D和I3D深度卷积神经网络,用于抽取视频特征,将中心帧图像和其相邻的31帧图像提取为一个4,096维(C3D)或1,024维(I3D)的向量。视频编码器模块中的Transformer编码器包含两个同构的计算单元,作用于骨干网络提取的特征之上,将视频帧的位置信息和上下文信息编码融入其特征,输出的视频特征维度为T×d。
本发明中,文本编码器模块中的骨干网络采用用Glove词向量,用来提取文本特征。文本编码器模块中的Transformer编码器与视频编码器模块中的Transformer编码器结构相同,但是不共享参数。由骨干网络提取的文本特征,经由Transformer编码器进行上下文编码,最后在文本的句法依存树结构上使用带残差连接的关系图卷积进行关系编码。该过程表示为:
Figure BDA0003759965970000021
其中,
Figure BDA0003759965970000022
表示第i个词在第l+1层关系图卷积中的特征;R表示句法依存树结构中边上的关系集合;
Figure BDA0003759965970000023
表示第i个词在句法依存树结构中边上关系为r的邻居;
Figure BDA0003759965970000024
为第l层关系图卷积中的可学习参数。由于句法依存树结构中边上的关系R有55种,考虑边的方向后关系数翻倍,会引入过多的参数矩阵
Figure BDA0003759965970000025
本发明中采用基分解的方法来减少参数量。该过程表示为:
Figure BDA0003759965970000026
其中
Figure BDA0003759965970000027
是第l层关系图卷积中的第i个基参数矩阵;B是基参数矩阵的个数;
Figure BDA0003759965970000028
是可学习的线性组合系数。
本发明中,所述的时空语义分解模块,分别对视频和文本进行时空分解,即分解到各自的时间语义和空间语义。所述对视频的时空分解,将原始帧率的视频作为快视频流,在帧数为T的快视频流上进行每4帧选一帧的稀疏采样而得到帧数为Tslow的慢视频流。所述对文本的时空分解,首先对查询中的文本进行词性标注,将查询中的名词和代词作为空间词,将动词和副词作为时间词。
本发明中,所述的多模态注意力模块,用于计算慢视频流和空间词的多模态注意力,作为快视频流和时间词的多模态注意力的先验。计算两个模态之间多头注意力的过程可表示为:
Figure BDA0003759965970000031
MultiHead(X,Y)=[Attention1...h(X,Y)]WO, #(4)
其中,WQ,WK,WV和WO为可学习的线性变换参数;h表示多头注意力使用的头数;X表示视频模态的特征,Y表示文本模态的特征;d表示特征的维度;σ表示softmax函数。上述计算慢视频流和空间词的多模态注意力的过程表示为:
Figure BDA0003759965970000032
Figure BDA0003759965970000033
其中,Qs表示空间词;
Figure BDA0003759965970000034
表示慢视频流在第l层多模态注意力的计算结果;MultiHead表示多头注意力机制;LN表示层归一化;MLP表示两层的感知机。经过和空间词的多模态注意力计算后,慢视频流
Figure BDA0003759965970000035
中每一帧和文本中对应的空间语义得到更多关注。为将慢视频流和空间词的多模态注意力计算结果作为时间维度上定位的先验知识,本发明使用归一化后的慢视频流在最后一层多模态注意力中的注意力图,计算方法为:
Figure BDA0003759965970000036
其中,Ns表示空间词的个数;A是慢视频流和空间词在最后一层多模态注意力的注意力图;Ai表示多头注意力中第i个头中的二维注意力图,维度为Tslow×Ns
Figure BDA0003759965970000037
表示多头注意力中第i个头中二维注意力图的第j列;minmax表示最小值-最大值归一化。归一化后的注意力图a中每一帧对应的值大小反映这一帧在与空间词的多模态注意力中的受注意程度,值越高则这一帧中出现文本中描述的物体、场景等空间语义越多。本系统将最后一层多模态注意力输出的慢视频流
Figure BDA0003759965970000038
的特征和快视频流Vfast相加,同时将归一化后的注意力图a与快视频流Vfast相乘。该过程表示为:
Figure BDA0003759965970000039
Figure BDA00037599659700000310
Figure BDA0003759965970000041
其中,upsample表示上采样操作;⊙表示逐元素乘;
Figure BDA0003759965970000047
表示元素都为1的向量。由于慢视频流的帧数和快视频流不匹配,所以本发明在融合之前使用线性插值法将慢视频流上采样到Tfast帧。在融合慢视频流的特征及注意力图a后,本发明计算快视频流Vfast,fused和时间词的多模态注意力,得到最终融合视频和文本时空语义的特征Vst,其维度为T×d。
本发明中,所述的片段边界定位模块,先根据建模的片段终点边缘分布P预测片段的终点
Figure BDA0003759965970000042
该过程表示为:
Figure BDA0003759965970000043
其中,终点边缘分布P使用一个两层的感知机建模。该感知机独立作用在融合特征Vst的每个位置上,对所有位置上的输出使用softmax归一化得到概率分布P。所述的片段边界定位模块还包括一个建模起点的条件期望的回归器,对于第i帧回归归一化的起点帧的期望E[start|end=i],预测起点
Figure BDA0003759965970000044
时输出回归的期望和终点的积。该过程表示为:
Figure BDA0003759965970000045
其中,条件期望E[start|end=i]的回归器为一个两层的感知机,该感知机独立作用在融合特征Vst的每个位置上,并经过sigmoid激活函数,输出归一化的起点帧。所述的片段边界定位模块通过显式建模片段起点和终点之间的条件依赖性,获得显著性能提升。
本发明采用端到端的训练方式,对模型的最终输出,即终点的边缘分布P及归一化起点的条件期望E[start|end=i]加以监督信号进行训练。对于终点的边缘分布P的监督信号设计,现有工作往往使用简单的独热编码,即终点帧的标签为1,其他帧的标签为0。由于长视频中的帧很多,而终点帧只有一帧,这种简单的标签设置方式具有严重的类别不平衡问题,导致模型的性能不佳。部分现有工作使用标签平滑技巧,即将独热编码的标签变为以终点帧为中心的高斯分布标签,这样终点帧附近的若干帧会有0到1之间的标签值。标签平滑技巧虽然起到正则化的作用,提升模型的泛化能力,但其假设的标签分布却和视频片段定位任务相独立。本发明提出采用起点固定的预测区间与真实区间的IoU作为监督信息,第i帧的标签值的计算过程表示为:
Figure BDA0003759965970000046
其中,s是起点的真实值;e是终点的真实值。根据公式(13)可知,终点帧e的标签值为1,和上述两种标签设置方式一致。在起点帧之后的帧的标签值设置为区间[s,i]和真实区间[s,e]的IoU,标签值随着i从左向右越靠近e越大,在i大于e时越远离e越小。由于视频片段定位任务采用基于预测区间和真实区间的IoU这一评价指标,本发明使用基于区间IoU的标签设置方式相较上述两种标签设置方式,更加贴近视频片段定位任务的目标,并取得更好性能。对于终点边缘分布P的训练目标是最小化二元交叉熵函数:
Figure BDA0003759965970000051
其中,
Figure BDA0003759965970000052
是未经过softmax归一化的终点边缘分布。对于归一化起点的条件期望E[start|end=i],其训练目标是最小化SmoothL1损失函数:
Figure BDA0003759965970000053
最终,本发明的训练目标为上述两个损失函数之和:
L=Lend+Lstart, #(16)。
本发明提供的基于时空语义分解的视频片段定位系统,其工作流程概括为:
(一)首先,根据所述视频和文本的编码器模块,使用预训练好的骨干网络分别提取视频和文本的特征,然后使用Transformer编码器融入位置信息和上下文信息;对于文本查询,再使用关系图卷积网络在句法依存树结构上进行关系编码;
(二)以编码后的视频特征和文本特征作为时空语义分解模块的输入,将文本按照词性分为空间词和时间词,将视频以不同的帧率采样得到快视频流和慢视频流;
(三)以空间词和时间词、快视频流和慢视频流作为多模态注意力模块的输入,先计算空间词和慢视频流的多模态注意力,融合后的特征与快视频流相加,将最后一层多模态注意力中的注意力图归一化后与快视频流相乘,然后再计算时间词和快视频流的多模态注意力;
(四)以融合后的视频特征作为片段边界定位模块的输入,根据建模的片段终点分布使用贪心策略预测片段的终点,然后在预测的终点帧之前的帧中回归起点帧;
(五)用预测区间与真实区间的IoU作为监督信息,以最小化二元交叉熵损失函数和SmoothL1损失函数为目标对网络进行端到端训练。
本发明的优点包括:
首先,针对现有视频片段定位工作中对于同一段视频无法区分具有相似物体、场景等空间语义的查询这一问题,本发明提出基于时空语义分解的视频片段定位系统,实现将视频和文本的时空语义拆分并进行细粒度语义匹配;
其次,首次提出先空间维度、再时间维度的多模态注意力计算,将空间语义的匹配结果作为时间维度上定位的先验,给视频中未出现查询中空间语义的帧以较小的权重作;时间维度上的多模态注意力基于空间维度多模态注意力的结果,突出时间维度在片段定位中的重要性;
再者,首次提出两步预测的边界计算方法,先计算终点分布的边缘分布,再回归起点的条件期望,通过显式建立片段起点与终点之间的条件依赖性,相较于现有边界计算方法有很大性能提升;
最后,本发明在公共数据集Charades-STA,ActivityNet-Captions和TACoS上取得最佳视频片段定位结果,定位结果具有可解释性。
附图说明
图1是本发明系统图示。
图2是本发明中的模型完整框架图。
具体实施方式
由背景技术可知,之前的大部分研究在对视频和文本进行特征编码和多模态匹配时,都将视频/文本作为一个整体,忽略二者分别在时空维度的语义。在视频片段定位任务中,对同一视频的查询往往涉及到同样的物体、场景等空间语义,而查询中蕴含的动作、变换等时间语义在定位中起到更为关键的作用。针对该问题,发明基于时空语义分解的视频片段定位系统,实现对视频和文本时空语义的分别处理,系统根据视频的帧率和文本的词性标注结果对二者进行分解,并进行先空间维度、再时间维度的多模态注意力计算。本发明中的两步预测方法通过显式建模目标片段起点和终点之间的条件依赖性,相较于现有预测方法显著提升定位准确度。
下文中,结合附图和实施例对本发明的精神和实质做进一步阐述。
如图1所示,本发明基于时空语义分解的视频片段定位系统包括视频和文本的编码器模块、时空语义分解模块、多模态注意力模块、及片段边界定位模块。原始视频经过抽帧后变为一系列的视频帧,视频帧经由视频编码器模块编码变为蕴含上下文特征的特征向量。原始文本经过文本预处理后,经由文本编码器模块编码变为蕴含上下文特征的特征向量。视频特征经过时空语义分解模块后变为含有动作信息的快视频流和含有静态物体信息的慢视频流。文本特征经过时空语义分解模块后变为含有动作信息的时间词和含有静态物体信息的空间词。多模态注意力模块先计算空间词和慢视频流之间的多模态注意力,获得每一帧与空间词交互的激活值。将该激活值作为空间维度上的先验,与快视频流相融合,进一步计算时间词与该融合视频流的多模态注意力。最后,片段边界定位模块在此融合了时空信息的特征上预测所定位片段的起点和终点。
本实施例中,视频编码器模块中的骨干网络使用的是C3D深度卷积神经网络。原始视频以帧率25fps抽帧后,获得一系列视频图像帧。C3D网络将这些视频帧按照每16帧划分为1个单元,每个单元经过C3D网络后提取为一个蕴含动作信息的4096维的向量。为了节省计算开销,进一步使用主成分分析方法将每个4096维的向量降维到500维。视频编码器模块中的Transformer编码器的编码维度为512维,层数为2层,多头注意力中的头数为8。为了编程方便,所有视频都会采样相同的视频帧。最后编码得到的蕴含上下文信息的视频特征的维度为T×d,其中T=128,d=512。
本实施例中,文本编码器模块中的骨干网络使用的是Glove词向量。原始文本经过大写字母转小写字母、英文分词、停用词去除等预处理步骤后,变为一个单词序列。每个单词经由Glove词表映射后,变为一个300维的Glove词向量。不在词表中的词统一映射成一个特殊的词<UNK>。为了编码方便,所有的文本的长度都统一为45个词,如果超过45个词就对句子进行截断,如果不满45个词就用特殊词<PAD>进行填充。文本编码器模块中的Transformer编码器和视频编码器模块中的Transformer编码器具有相同的参数设置,但是不共享权重。本实施例中,使用斯坦福大学开源的自然语言处理工具stanza,提取文本的句法依存树。一棵句法依存树是一个有向无环的图结构,图中的每个节点对应句子中的一个单词;图中的每条边上都有关系标签,该边所连接的两个单词之间的句法关系。在句法依存树上使用带残差连接的关系图卷积进行关系编码。该过程表示为:
Figure BDA0003759965970000071
其中,
Figure BDA0003759965970000072
表示第i个词在第l+1层关系图卷积中的特征;R表示句法依存树结构中边上的关系集合;
Figure BDA0003759965970000073
表示第i个词在句法依存树结构中边上关系为r的邻居;
Figure BDA0003759965970000074
为第l层关系图卷积中的可学习参数。本实施例中使用的关系图卷积网络有2层,关系总数|R|有55种,
Figure BDA0003759965970000075
的维度为512×512,即在图卷积网络的计算过程中,文本特征的维度保持不变。
本实施例中对视频的时空分解,将原始帧率的视频作为快视频流,在帧数为T的快视频流上进行每4帧选一帧的稀疏采样得到帧数为Tslow的慢视频流。本实施例中对文本的时空分解,使用斯坦福大学开源的自然语言处理工具stanza对查询中的文本进行词性标注,并将查询中的词性被标注为名词和代词作为空间词,将动词和副词作为时间词。如果一个句子中没有检测到动词或副词,会退而求其次将句子中的动名词提取词干后作为时间词。
本实施例中,多模态注意力模块计算慢视频流和空间词的多模态注意力,作为快视频流和时间词的多模态注意力的先验:
Figure BDA0003759965970000076
Figure BDA0003759965970000077
其中,Qs表示空间词;
Figure BDA0003759965970000078
表示慢视频流在第l层多模态注意力的计算结果;MultiHead表示多头注意力机制;LN表示层归一化;MLP表示两层的感知机,其隐层的维度为2048,输出层的维度为512。本实施例中共使用3层多模态注意力。然后,计算归一化后的慢视频流在最后一层多模态注意力中的注意力图:
Figure BDA0003759965970000081
再将最后一层多模态注意力输出的慢视频流
Figure BDA0003759965970000082
特征和快视频流Vfast相加,同时将归一化后的注意力图a与快视频流Vfast相乘:
Figure BDA0003759965970000083
Figure BDA0003759965970000084
Figure BDA0003759965970000085
其中上采样操作upsample使用的是线性插值法。最后,计算快视频流Vfast,fused和时间词的多模态注意力,得到最终融合视频和文本时空语义的特征Vst。该部分多模态注意力的计算和慢视频流与空间词之间的多模态注意力具有相同的参数设置,但是具有各自独立的可学习参数。
本实施例中,片段边界定位模块先根据建模的片段终点边缘分布P预测片段的终点
Figure BDA0003759965970000089
该过程表示为:
Figure BDA0003759965970000086
其中,片段终点边缘分布P由一个两层的感知机建模,其隐层维度为128,输出层的维度为1.该感知机计算每一帧作为终点的帧的概率,其最终输出为一个有T种可能取值的离散分布。
然后,对于第i帧回归归一化的起点帧的期望E[start|end=i],预测起点
Figure BDA0003759965970000087
时输出回归的期望和终点的积。该过程表示为:
Figure BDA0003759965970000088
其中,条件期望E[start|end=i]由一个两层的感知机建模,其隐层维度为128,输出层的维度为1。该感知机的输入为融合特征Vst中第i帧的特征向量,输出为给定该帧作为终点帧的条件下,起点帧索引的期望。片段边界定位模块通过显式建模片段起点和终点之间的条件依赖性,获得显著性能提升。
本实施例中,使用的数据集为开源视频数据集ActivityNet-Captions。ActivityNet-Captions是由斯坦福大学开源的视频数据集,包含超过20,000个不同领域的视频,其训练集包含37,421个片段-文本对,测试集包含17,031个片段-文本对。有关数据划分方式,采用斯坦福大学提供的官方划分。
本实施例中选择不同交并比阈值下的定位准确率作为评价准。如果预测片段和真实片段的交并比大于阈值,则该样本预测正确,否则预测错误。使用的阈值为{0.5,0.7}。
通过在验证集上的实验对比,对于本发明提出模型所包含的超参数,做以如下设定。优化器使用Adam优化器,初始学习率设置为0.0004,权重衰减设置为0.000006。训练批次大小设置为128。本实施例中,交并比阈值为0.5下的准确率达到48.94%,与之前效果最好的模型相比领先3.02%,交并比阈值为0.5下的准确率达到28.30%,与之前效果最好的模型相比领先2.91%。
综上所述,本发明面向视频片段定位问题,针对现有工作忽略视频和文本分别在时空维度的语义,从而无法区分相似查询的问题,提出一种新颖的基于时空语义分解的视频片段定位系统。通过视频和文本的编码器、时空语义分解、多模态注意力、及片段边界定位四个模块,对视频和文本进行分别的时空语义分解,并分别在时空维度进行细粒度的多模态匹配,由两阶段预测方法产生预测片段的边界,使得视频片段定位的准确率大大提升。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (7)

1.基于时空语义分解的视频片段定位系统,其特征在于,包括视频和文本的编码器模块、时空语义分解模块、多模态注意力模块、及片段边界定位模块;所述视频和文本的编码器模块分别对视频和文本进行特征提取,生成含有上下文信息的特征;所述时空语义分解模块将文本按照词性分为空间词和时间词,将视频以不同的帧率采样得到快视频流和慢视频流;所述多模态注意力模块先计算空间词和慢视频流的互注意力,将结果和快视频流融合,然后再计算时间词和快视频流的互注意力,得到两种模态的融合特征;所述片段边界定位模块先计算目标片段终点的帧,然后在预测的终点帧之前的帧中回归起点帧。
2.根据权利要求1所述的视频片段定位系统,其特征在于,所述视频编码器模块由骨干网络和Transformer编码器组成;文本编码器模块由骨干网络、Transformer编码器以及关系图卷积网络组成;其中:
视频编码器模块中的骨干网络采用C3D和I3D深度卷积神经网络,用于抽取视频特征;将中心帧图像和其相邻的31帧图像提取为一个4,096维或1,024维的向量;视频编码器模块中的Transformer编码器包含两个同构的计算单元,作用于骨干网络提取的特征,将视频帧的位置信息和上下文信息编码融入其特征,输出的视频特征维度为T×d;
文本编码器模块中的骨干网络采用Glove词向量,用来提取文本特征;文本编码器模块中的Transformer编码器与视频编码器模块中的Transformer编码器结构相同,但是不共享参数;由骨干网络提取的文本特征,经由Transformer编码器进行上下文编码,最后在文本的句法依存树结构上使用带残差连接的关系图卷积进行关系编码;该过程表示为:
Figure FDA0003759965960000011
其中,
Figure FDA0003759965960000012
表示第i个词在第l+1层关系图卷积中的特征;R表示句法依存树结构中边上的关系集合;
Figure FDA0003759965960000013
表示第i个词在句法依存树结构中边上关系为r的邻居;
Figure FDA0003759965960000014
为第l层关系图卷积中的可学习参数;由于句法依存树结构中边上的关系R有55种,考虑边的方向后关系数翻倍,会引入过多的参数矩阵
Figure FDA0003759965960000015
采用基分解的方法来减少参数量;该过程表示为:
Figure FDA0003759965960000016
其中,
Figure FDA0003759965960000017
是第l层关系图卷积中的第i个基参数矩阵;B是基参数矩阵的个数;
Figure FDA0003759965960000018
是可学习的线性组合系数。
3.根据权利要求2所述的视频片段定位系统,其特征在于,所述的时空语义分解模块,分别对视频和文本进行时空分解,即分解到各自的时间语义和空间语义;所述对视频的时空分解,将原始帧率的视频作为快视频流,在帧数为T的快视频流上进行每4帧选一帧的稀疏采样而得到帧数为Tslow的慢视频流;所述对文本的时空分解,首先对查询中的文本进行词性标注,将查询中的名词和代词作为空间词,将动词和副词作为时间词。
4.根据权利要求3所述的视频片段定位系统,其特征在于,所述多模态注意力模块用于计算慢视频流和空间词的多模态注意力,作为快视频流和时间词的多模态注意力的先验;
先计算两个模态之间多头注意力,其过程表示为:
Figure FDA0003759965960000021
MultiHead(X,Y)=[Attention1...h(X,Y)]WO, #(4)
其中,WQ,WK,WV和WO为可学习的线性变换参数;h表示多头注意力使用的头数;X表示视频模态的特征,Y表示文本模态的特征;d表示特征的维度;σ表示softmax函数;计算慢视频流和空间词的多模态注意力的过程表示为:
Figure FDA0003759965960000022
Figure FDA0003759965960000023
其中,Qs表示空间词;
Figure FDA0003759965960000024
表示慢视频流在第l层多模态注意力的计算结果;MultiHead表示多头注意力机制;LN表示层归一化;MLP表示两层的感知机;经过和空间词的多模态注意力计算后,慢视频流
Figure FDA0003759965960000025
中每一帧和文本中对应的空间语义得到更多关注;为将慢视频流和空间词的多模态注意力计算结果作为时间维度上定位的先验知识,使用归一化后的慢视频流在最后一层多模态注意力中的注意力图,计算方法为:
Figure FDA0003759965960000026
其中,Ns表示空间词的个数;A是慢视频流和空间词在最后一层多模态注意力的注意力图;Ai表示多头注意力中第i个头中的二维注意力图,维度为Tslow×Ns
Figure FDA0003759965960000027
表示多头注意力中第i个头中二维注意力图的第j列;minmax表示最小值-最大值归一化;归一化后的注意力图a中每一帧对应的值大小反映这一帧在与空间词的多模态注意力中的受注意程度,值越高则这一帧中出现文本中描述的物体、场景等空间语义越多;将最后一层多模态注意力输出的慢视频流
Figure FDA0003759965960000028
的特征和快视频流Vfast相加,同时将归一化后的注意力图a与快视频流Vfast相乘;该过程表示为:
Figure FDA0003759965960000029
Figure FDA00037599659600000210
Figure FDA0003759965960000031
其中,upsample表示上采样操作;⊙表示逐元素乘;
Figure FDA00037599659600000310
表示元素都为1的向量;由于慢视频流的帧数和快视频流不匹配,在融合之前使用线性插值法将慢视频流上采样到Tfast帧;在融合慢视频流的特征及注意力图a后,计算快视频流Vfast,fused和时间词的多模态注意力,得到最终融合视频和文本时空语义的特征Vst,其维度为T×d。
5.根据权利要求4所述的视频片段定位系统,其特征在于,所述片段边界定位模块,先根据建模的片段终点边缘分布P预测片段的终点
Figure FDA0003759965960000032
该过程表示为:
Figure FDA0003759965960000033
其中,终点边缘分布P使用一个两层的感知机建模;该感知机独立作用在融合特征Vst的每个位置上,对所有位置上的输出使用softmax归一化得到概率分布P;
所述片段边界定位模块还包括一个建模起点的条件期望的回归器,对于第i帧回归归一化的起点帧的期望E[start|end=i],预测起点
Figure FDA0003759965960000034
时输出回归的期望和终点的积;该过程表示为:
Figure FDA0003759965960000035
其中,条件期望E[start|end=i]的回归器为一个两层的感知机,该感知机独立作用在融合特征Vst的每个位置上,并经过sigmoid激活函数,输出归一化的起点帧。
6.根据权利要求5所述的视频片段定位系统,其特征在于,采用端到端的训练方式,对模型的最终输出,即终点的边缘分布P及归一化起点的条件期望E[start|end=i]加以监督信号进行训练;采用起点固定的预测区间与真实区间的IoU作为监督信息,第i帧的标签值的计算过程表示为:
Figure FDA0003759965960000036
其中,s是起点的真实值;e是终点的真实值;根据公式(13),终点帧e的标签值为1;在起点帧之后的帧的标签值设置为区间[s,i]和真实区间[s,e]的IoU,标签值随着i从左向右越靠近e越大,在i大于e时越远离e越小;对于终点边缘分布P的训练目标是最小化二元交叉熵函数:
Figure FDA0003759965960000037
其中,
Figure FDA0003759965960000038
是未经过softmax归一化的终点边缘分布;对于归一化起点的条件期望E[start|end=i],其训练目标是最小化SmoothL1损失函数:
Figure FDA0003759965960000039
最终,训练目标为上述两个损失函数之和:
L=Lend+Lstart, #(16)。
7.根据权利要求1-6之一所述的视频片段定位系统,其特征在于,工作流程为:
(一)首先,根据所述视频和文本的编码器模块,使用预训练好的骨干网络分别提取视频和文本的特征,然后使用Transformer编码器融入位置信息和上下文信息;对于文本查询,再使用关系图卷积网络在句法依存树结构上进行关系编码;
(二)以编码后的视频特征和文本特征作为时空语义分解模块的输入,将文本按照词性分为空间词和时间词,将视频以不同的帧率采样得到快视频流和慢视频流;
(三)以空间词和时间词、快视频流和慢视频流作为多模态注意力模块的输入,先计算空间词和慢视频流的多模态注意力,融合后的特征与快视频流相加,将最后一层多模态注意力中的注意力图归一化后与快视频流相乘,然后再计算时间词和快视频流的多模态注意力;
(四)以融合后的视频特征作为片段边界定位模块的输入,根据建模的片段终点分布使用贪心策略预测片段的终点,然后在预测的终点帧之前的帧中回归起点帧;
(五)用预测区间与真实区间的IoU作为监督信息,以最小化二元交叉熵损失函数和SmoothL1损失函数为目标对网络进行端到端训练。
CN202210869465.5A 2022-07-22 2022-07-22 基于时空语义分解的视频片段定位系统 Pending CN115309939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210869465.5A CN115309939A (zh) 2022-07-22 2022-07-22 基于时空语义分解的视频片段定位系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210869465.5A CN115309939A (zh) 2022-07-22 2022-07-22 基于时空语义分解的视频片段定位系统

Publications (1)

Publication Number Publication Date
CN115309939A true CN115309939A (zh) 2022-11-08

Family

ID=83856189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210869465.5A Pending CN115309939A (zh) 2022-07-22 2022-07-22 基于时空语义分解的视频片段定位系统

Country Status (1)

Country Link
CN (1) CN115309939A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661727A (zh) * 2022-12-27 2023-01-31 苏州浪潮智能科技有限公司 视频的行为定位方法、装置、电子设备及存储介质
CN117093749A (zh) * 2023-10-19 2023-11-21 中国科学技术大学 生成式的视频片段检索方法、系统、设备及存储介质
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661727A (zh) * 2022-12-27 2023-01-31 苏州浪潮智能科技有限公司 视频的行为定位方法、装置、电子设备及存储介质
WO2024139091A1 (zh) * 2022-12-27 2024-07-04 苏州元脑智能科技有限公司 视频的行为定位方法、装置、电子设备及存储介质
CN117093749A (zh) * 2023-10-19 2023-11-21 中国科学技术大学 生成式的视频片段检索方法、系统、设备及存储介质
CN117372936A (zh) * 2023-12-07 2024-01-09 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统
CN117372936B (zh) * 2023-12-07 2024-03-22 江西财经大学 基于多模态细粒度对齐网络的视频描述方法与系统

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN115309939A (zh) 基于时空语义分解的视频片段定位系统
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN118103834A (zh) 一种信息获取方法以及装置
CN110597961A (zh) 一种文本类目标注方法、装置、电子设备及存储介质
Li et al. Measuring and predicting tag importance for image retrieval
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN117493491A (zh) 一种基于机器学习的自然语言处理方法及系统
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114548101B (zh) 基于可回溯序列生成方法的事件检测方法和系统
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
CN111027681B (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
Zhao et al. A hierarchical decoding model for spoken language understanding from unaligned data
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
Shin et al. Learning to combine the modalities of language and video for temporal moment localization
CN114511813B (zh) 视频语义描述方法及装置
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN115964497A (zh) 一种融合注意力机制与卷积神经网络的事件抽取方法
CN113157892B (zh) 用户意图处理方法、装置、计算机设备及存储介质
CN112347753B (zh) 一种应用于阅读机器人的摘要生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination