CN112380394B - 面向文本到视频片段定位的渐进式定位方法 - Google Patents

面向文本到视频片段定位的渐进式定位方法 Download PDF

Info

Publication number
CN112380394B
CN112380394B CN202011164289.2A CN202011164289A CN112380394B CN 112380394 B CN112380394 B CN 112380394B CN 202011164289 A CN202011164289 A CN 202011164289A CN 112380394 B CN112380394 B CN 112380394B
Authority
CN
China
Prior art keywords
text
video
segments
segment
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011164289.2A
Other languages
English (en)
Other versions
CN112380394A (zh
Inventor
董建锋
郑琪
彭敬伟
王勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202011164289.2A priority Critical patent/CN112380394B/zh
Priority to PCT/CN2020/127657 priority patent/WO2022088238A1/zh
Publication of CN112380394A publication Critical patent/CN112380394A/zh
Application granted granted Critical
Publication of CN112380394B publication Critical patent/CN112380394B/zh
Priority to US18/303,534 priority patent/US11941872B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向文本到视频片段定位的渐进式定位方法,该方法包括:首先利用不同的特征提取方法分别提取视频和文本这两种模态的特征;接着渐近地选择不同的步长,多阶段地学习视频和文本之间的相关性;最后结合各个阶段的相关性损失,以端到端的方式训练模型。同时,通过条件特征更新模块和上采样连接让细时间粒度阶段融合粗时间粒度阶段的信息,使得不同阶段之间相互促进。不同阶段能关注不同时间粒度的片段,结合阶段之间的相互联系,使得模型能应对目标片段长度变化明显的情况。本发明借鉴人类在处理片段定位任务的思维方式,采用一种由粗到细的方式,多阶段、渐近地定位目标片段,在很大程度上提高了定位的性能。

Description

面向文本到视频片段定位的渐进式定位方法
技术领域
本发明涉及多媒体理解技术领域,尤其涉及一种面向文本到视频片段定位的渐进式定位方法。
背景技术
近年来,由于互联网和移动智能设备的普及以及通信和多媒体技术的迅速发展,每天都会有海量的视频被创造并上传至互联网。面对如此庞大的视频数据,如何从中快速且准确地找出用户需求的视频是一个艰巨的挑战。传统基于标签的检索无法适应视频内容的多样性,而基于文本的检索只是得到整个视频,并不能完全满足用户的需求,因为用户感兴趣的可能只是视频中的一个片段。在这样的背景下,基于文本的视频片段定位任务被提出并受到研究者的关注,它的目标是根据查询文本在一个完整的视频中找到与之语义最相关的一个片段。用户可以把自己感兴趣的内容转为文本描述,然后通过定位找到需要的片段或者整个视频。
由于任务的开放性,即用户感兴趣的内容可长可短,目标片段的长度会存在很大的差异。绝大部分的现有研究都是先产生足量长度各异的候选片段,然后把它们分别与查询文本进行比较,选择最相关的一个候选片段作为最终视频片段。在这种逻辑下,如何产生高质量的候选片段是解决这个任务的关键问题。绝大部分的现有研究都是先把视频以固定步长分割成一系列时间上有序的基础片段,然后组合那些时间上连续而长度各异的片段,得到各种长度的候选片段。在这种方式下,切割视频的步长选取就显得很重要,步长越大,分割产生的片段时间粒度越粗,得到的候选片段可能很难应对较短的目标片段;而更小的步长意味着分割产生的片段时间粒度更细,这样能应对较短的目标片段,但会使候选片段包含更多的冗余信息,阻碍学习目标的优化。现有方法使用单独的步长只能产生唯一粒度大小的片段,需要在应对能力和模型优化之间有所取舍,难以达到平衡。
发明内容
本发明针对现有技术的不足,采用了一种多阶段、由粗到细的方法,提出了一个渐近式定位网络。该网络通过多阶段地选择不同大小的步长得到不同时间粒度的候选片段,每个阶段都有一个定位分支,学习不同时间粒度候选片段和文本的相似性。同时通过条件特征更新(CFU,Conditional Feature Update)模块和上采样连接将粗时间粒度分支的学习信息传递到细时间粒度的分支,使模型能应对目标片段长度变化明显的情况,在很大程度上提高了定位的性能。
本发明的目的是通过以下技术方案来实现的:一种面向文本到视频片段定位的渐进式定位方法,该方法包括以下步骤:
(1)利用不同的特征提取方法分别提取视频和文本的特征;
(2)粗时间粒度定位阶段:以较大的步长对在步骤(1)中得到的视频特征进行采样,并产生候选片段;
(3)将步骤(2)中的候选片段和步骤(1)得到的文本特征融合;
(4)将融合后的特征经过卷积神经网络得到粗粒度的特征矩阵,然后通过FC层得到相关性分数矩阵;
(5)细时间粒度定位阶段:以较小的步长对在步骤(1)中得到的视频特征进行采样,结合步骤(4)中得到的特征矩阵通过条件特征更新模块进行特征更新,然后产生候选片段;
(6)将步骤(5)中的候选片段和步骤(1)得到的文本特征融合,结合步骤(4)中得到的特征矩阵通过上采样连接融合上阶段的信息;
(7)将融合后的特征经过卷积神经网络得到细粒度的特征矩阵,然后通过FC层得到相关性分数矩阵;
(8)利用二元交叉熵损失分别计算步骤(4)和步骤(7)中得到的相关性分数矩阵的损失值,以一定的权重结合,最后以端到端的方式训练模型;
(9)利用步骤(8)训练得到的模型实现基于文本的视频片段定位。
进一步地,所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤:
(1-1)以一定的间隔将视频分割成若干视频单元,利用预训练的CNN模型对每一个视频单元按帧进行视觉特征提取,然后通过平均池化和FC层,最后获得视频特征;
(1-2)利用Glove word2vec模型将文本中的每个单词转化为嵌入向量,利用LSTM网络学习词与词之间的联系,把最后一个隐藏状态的输出特征作为文本特征。
进一步地,所述步骤(2)具体包括以下子步骤:
(2-1)以较大步长对在步骤(1)中得到的视频特征进行采样,得到时间上有序的基础片段特征向量,通过基础片段的组合可以得到一系列时间上连续而长度不一的片段;
(2-2)利用稀疏采样策略,从所有可能的片段中选出候选片段,尽可能减少冗余信息而不影响模型性能;
(2-3)对每一个候选片段区间内的基础片段进行最大池化操作得到候选片段的特征;
(2-4)用二维矩阵表示所有候选片段的特征,每一个候选片段开始和结束的位置对应在二维矩阵的坐标,把它的特征放到对应位置,最后得到候选片段的二维特征矩阵。二维矩阵的形式使我们的网络能一次性处理所有的候选片段,让它们同时学习和文本之间的相关性,而且在学习过程中能利用候选片段之间的关系,提高网络的性能。
进一步地,所述步骤(3)中,分别将文本特征和候选片段特征通过FC层映射到相同维度空间,然后通过Hadamard乘法和Frobenius归一化,得到融合后的特征。
进一步地,所述步骤(4)具体包括以下子步骤:
(4-1)将融合后的特征通过一个两层的卷积神经网络学习候选片段和文本之间的相关性,得到一个和输入同形状的中间特征矩阵,它会传递学习信息给细时间粒度定位阶段;
(4-2)将步骤(4-1)得到的中间特征矩阵通过FC层得到粗时间粒度定位阶段候选片段的相关性分数矩阵。
进一步地,所述步骤(5)具体包括以下子步骤:
(5-1)以较小的步长对在步骤(1)中得到的视频特征进行采样,得到一系列时间上有序的基础片段特征向量;
(5-2)利用步骤(4-1)得到的中间特征矩阵,通过条件特征更新模块对基础片段特征向量进行更新,通过基础片段的组合可以得到一系列时间上连续的片段;我们希望当前阶段能侧重那些和文本相关性比较大的区域,而这种信息在粗时间粒度定位阶段已经学习过,条件特征更新模块就是利用粗时间粒度定位阶段的信息,通过学习权重对当前阶段的特征进行更新;
(5-3)利用稀疏采样策略从所有可能的片段中选出候选片段,对每一个候选片段区间内的基础片段进行最大池化操作得到候选片段的特征,用二维矩阵表示所有候选片段的特征,得到细时间粒度定位阶段的候选片段二维特征矩阵。
进一步地,通过条件特征更新模块更新基础片段特征向量的具体步骤如下:
通过最大池化操作将t-1阶段的中间特征矩阵Ht-1转化为ht-1
对每一个t阶段的基础片段特征向量
Figure BDA0002745242650000031
结合t-1阶段的信息学习一个权重
Figure BDA0002745242650000032
用公式表示如下:
Figure BDA0002745242650000033
其中,
Figure BDA0002745242650000034
Figure BDA0002745242650000035
表示待学习的参数,⊙表示Hadamard乘法,sigmoid表示非线性sigmoid函数;
根据学到的权重
Figure BDA0002745242650000036
得到每一个基础片段更新后的特征向量
Figure BDA0002745242650000037
即:
Figure BDA0002745242650000038
进一步地,所述步骤(6)具体包括以下子步骤:
(6-1)将候选片段特征和文本特征融合得到t阶段的融合特征Ft
(6-2)将步骤(4-1)得到的t-1阶段的中间特征矩阵Ht-1通过上采样连接与步骤(6-1)得到的t阶段的特征矩阵Ft融合,得到融合后的特征矩阵Gt,公式如下:
Figure BDA0002745242650000041
其中,下标n表示通过n次的上采样和卷积操作,下标k表示卷积核的大小,
Figure BDA0002745242650000042
表示逐元素最大池化,sigmoid表示非线性sigmoid函数。
细时间粒度定位阶段能更好的应对目标片段较短的情形,但由于稀疏采样的策略,可能应对较长目标片段的能力有所缺失;上采样连接通过融合粗时间粒度的信息,使得细时间粒度定位阶段有更好的定位能力。
进一步地,所述步骤(7)具体包括以下子步骤:
(7-1)将融合后的特征通过一个两层的卷积神经网络学习候选片段和文本之间的相关性,得到细时间粒度的中间特征矩阵;
(7-2)将步骤(7-1)得到的中间特征矩阵通过FC层得到细时间粒度定位阶段候选片段的相关性分数矩阵。
进一步地,所述步骤(9)中,利用训练好的模型渐进地实现视频片段的定位包括以下步骤:
(9-1)将查询文本和对应视频输入模型,得到不同时间粒度的相关性分数矩阵;
(9-2)选择粒度最细的阶段的相关性分数矩阵,按分数高低将候选片段排序,选择分数最高的候选片段,返回它在原始视频的位置信息。
本发明的有益效果是:本发明首先利用不同的特征提取方法分别提取视频和文本这两种模态的特征;接着渐近地选择不同的步长,多阶段地学习视频和文本之间的相关性;最后结合各个阶段的相关性损失,以端到端的方式训练模型。同时,通过条件特征更新模块和上采样连接让细时间粒度阶段融合粗时间粒度阶段的信息,使得不同阶段之间相互促进。不同阶段能关注不同时间粒度的片段,结合阶段之间的相互联系,使得模型能应对目标片段长度变化明显的情况。本发明借鉴人类在处理片段定位任务的思维方式,采用一种由粗到细的方式,多阶段、渐近地定位目标片段,在很大程度上提高了定位的性能。
附图说明
图1为本发明面向文本到视频片段定位的渐进式定位网络结构示意图;
图2为渐近式定位网络中条件特征更新模块(CFU)的结构示意图。
具体实施方式
以下将结合附图和具体实施方式对本发明进行详细说明。
为解决文本到视频片段的定位问题,本发明提出了一种面向文本到视频片段定位的渐进式定位方法,该方法基于渐进式定位网络实现,渐进式定位网络结构如图1所示。该方法具体步骤如下:
(1)利用不同的特征提取方法分别提取视频和文本这两种模态的特征。
(1-1)对于给定的一个视频,对它进行分割得到256个视频单元(注意由于每个视频的长度不一样,所以分割后每个视频单元的长度也不一样)。对每一个视频单元,我们利用在ImageNet数据集上训练好的卷积神经网络(CNN)模型提取所有帧的深度特征,通过平均池化合并每个视频单元内的特征,然后通过FC层进行降维,得到视频单元的特征向量。这样,视频就可以用一系列特征向量来描述,
Figure BDA0002745242650000051
其中
Figure BDA0002745242650000052
表示第i个视频单元的特征向量,dv=512表示特征向量的维度,lv=256代表视频单元的数量;
(1-2)给定长度为ls的句子,利用GloVe word2vec模型,将每个单词转化为嵌入向量,可以得到一个单词嵌入向量序列
Figure BDA0002745242650000053
其中wt表示第t个单词的嵌入向量。由于句子中单词与单词之间的联系十分密切,理解各单词之间的上下文关系对文本特征的充分表达十分重要。LSTM是一种特殊的循环神经网络(RNN),能够学习句子中单词之间的依赖关系。因此,我们让嵌入向量序列通过3层双向LSTM网络的学习,让词与词之间建立充分的联系,选择最后一个隐藏状态的输出向量作为文本的特征向量,用
Figure BDA0002745242650000054
表示,其中ds=512表示LSTM网络每一个隐藏状态的尺寸。
(2)得到视频特征和文本特征后,需要产生候选片段。我们采用由粗到细、渐近的思想去解决文本到视频片段的定位任务,因此首先用较大的步长,让模型学习粗时间粒度的候选片段和文本之间的相关性,我们称之为粗时间粒度分支。首先构建候选片段的特征矩阵,具体步骤如下:
(2-1)用一个较大的步长s1对步骤(1-1)得到的视频特征进行采样,得到一系列基础片段,即
Figure BDA0002745242650000055
表示第i个基础片段的特征向量,它是由对应区间内的视频特征向量通过平均池化得到的。平均池化能让基础片段保留相应区间内的视频信息。N1=lv/s1表示基础片段的数量。为了表示不同步长的各个阶段,我们用上标表示当前阶段(例如这里的上标1表示第1阶段),随着上标的增加,步长会倍数减小,从而得到不同时间粒度的特征表达。
(2-2)对于步骤(2-1)得到的N1个基础片段,理论上有
Figure BDA0002745242650000056
个不同的候选片段。为了减小计算消耗,去除更多的冗余信息,模型采取一定的策略选择候选片段:如果N1≤16,选择所有可能的候选片段;否则,对于任意一个从
Figure BDA0002745242650000057
Figure BDA0002745242650000058
的片段,如果满足G(a,b)=1,则被选择。G(a,b)可由下式得到:
G(a,b)←(amods=0)&((b-s)mod s=0),
其中s和s的定义如下:
s=2k-1,
Figure BDA0002745242650000061
这里,
Figure BDA0002745242650000062
表示向上取整函数。
(2-3)进一步地,对选出的每一个候选片段包含的基础片段特征进行最大池化处理,得到候选片段的特征向量。如对一个从
Figure BDA0002745242650000063
Figure BDA0002745242650000064
的候选片段,它的特征
Figure BDA0002745242650000065
在这里,最大池化操作类似于一种特征选择,我们希望辨识度更好的特征能保留进行下一步的学习。
(2-4)把所有候选片段的特征向量根据它的位置存入二维特征矩阵,得到
Figure BDA0002745242650000066
Figure BDA0002745242650000067
其中,
Figure BDA0002745242650000068
所有无效的位置(包括未被选择的和不满足开始时间小于结束时间的)都用0填充。
(3)得到候选片段的特征矩阵后,我们需要结合文本的信息,具体步骤如下:
先分别将文本特征和候选片段特征通过FC层映射到du=512维的空间,然后通过Hadamard乘法和Frobenius归一化,得到融合后的特征F1。以上过程可以表述为:
F1=||(Wv·M1)⊙(Ws·fs·1T)||F
其中Wv和Ws分别是候选片段特征和文本特征在FC层待学习的参数,1T表示全1的行向量,⊙和||·||F分别代表Hadamard乘法和Frobenius归一化。
(4)将融合后的特征经过卷积神经网络得到特征矩阵,然后通过一个全连接(FC)层得到相关性分数矩阵,具体步骤如下:
(4-1)让融合后的特征F1通过一个两层的卷积神经网络学习候选片段和文本之间的相关性,得到特征矩阵H1。在两层卷积神经网络中,我们使用5×5的卷积核。同时,由于矩阵H1的形状与候选片段的位置有关,我们希望它最后能保持不变,所以在卷积过程中使用了填充(padding);
(4-2)通过卷积网络的学习,模型已经学到了候选片段和文本之间的相关性,这些信息隐藏在特征矩阵H1中。为了让特征矩阵中的相关性信息更明确,我们让特征矩阵H1通过一个FC层得到一个相关性分数矩阵
Figure BDA0002745242650000069
矩阵P1中每一个位置的数值代表了当前位置的候选片段与查询文本的相关性,分数越高意味着候选片段和文本越相关。相关性分数矩阵的获得可以用公式表示如下:
P1=W1·H1+b1
其中W1和b1是FC层待学习的参数。
(5)得到粗时间粒度分支的相关性分数意味着当前分支的定位已经完成,但这个分支关注的只是粗时间粒度的候选片段,并不能应对较短的目标片段。我们的渐近式定位网络还有一个细时间粒度定位分支,解决第一个分支的缺陷,关注那些较短的目标片段。当然,两个分支不是独立学习,我们设计了条件特征更新模块和上采样连接将两个分支连接起来。
对于细时间粒度分支的学习,我们首先构建候选片段的特征矩阵,具体步骤如下:
(5-1)用一个较小的步长s2(相对于步骤(2-1)而言)对步骤(1-1)得到的视频特征进行采样,得到基础片段特征向量
Figure BDA0002745242650000071
(5-2)在产生候选片段之前,我们第一次利用上一个分支学到的信息。步骤(4-1)得到的特征矩阵H1隐含候选片段和查询文本的相关性,我们希望结合它对C2进行更新。通过条件特征更新模块更新基础片段特征向量C2,如图2所示,具体步骤如下:
首先,通过最大池化操作把
Figure BDA0002745242650000072
转化为
Figure BDA0002745242650000073
然后,对每一个
Figure BDA0002745242650000074
结合上一分支的信息学习一个权重
Figure BDA0002745242650000075
用公式表示如下:
Figure BDA0002745242650000076
其中,
Figure BDA0002745242650000077
Figure BDA0002745242650000078
表示待学习的参数,⊙表示Hadamard乘法,sigmoid表示非线性sigmoid函数。
最后,可以用学到的权重得到每一个基础片段更新后的特征向量
Figure BDA0002745242650000079
即:
Figure BDA00027452426500000710
通过条件特征更新模块,我们让粗时间粒度分支学到的相关性信息传递到细时间粒度分支,让那些相关性更强的区域能得到更多的关注。
(5-3)得到更新后的基础片段的特征向量
Figure BDA00027452426500000711
采用步骤(2-2)、(2-3)、(2-4)的方法,得到细时间粒度分支的二维特征矩阵M2
(6)同样地,细时间粒度分支的候选片段特征需要融合文本信息,之后,我们会第二次利用粗时间粒度分支的信息。具体步骤如下:
(6-1)采用步骤(3)的方法,将候选片段特征矩阵和文本特征融合得到融合特征F2
(6-2)步骤(5-2)通过学习一个权重,间接利用了上一分支的相关信息。在这里,我们希望能更直接地利用它们,为此设计了上采样连接。具体细节如下:
首先应该明确,上一分支包含相关信息的是步骤(4-1)中通过卷积神经网络学习的特征矩阵H1
接着,注意到由于两个分支的步长不同,所以H1和F2的形状有差异,而且F2的形状应该更大。所以首先让H1通过上采样(upsample),使得两者形状一致。
然后,让上采样后的H1通过两层卷积神经网络(Convk,下标k表示卷积核的大小,k可以取3)。
经过n次上采样和卷积操作,使得H1和F2的形状一致后,再应用激活函数sigmoid。
最后,我们让它与融合特征F2通过逐元素最大池化
Figure BDA0002745242650000081
进行融合,得到特征矩阵G2
上述过程可以表述为:
Figure BDA0002745242650000082
其中,下标n表示我们通过n次的上采样和卷积操作,也意味着每次上采样让H1的形状扩大了
Figure BDA0002745242650000083
倍。
条件特征更新模块通过约束使得细粒度分支对视频特征有所侧重,上采样连接通过特征选择保留两个阶段候选片段中辨识度更好的特征,从而使得模型有更好的定位能力。
(7)采用和步骤(4-2)一样的方法,通过两层卷积神经网络和FC层,得到细时间粒度分支的相关性分数矩阵P2
(8)经过以上步骤,每个分支都得到了一个相关性分数矩阵,每个分支都能学习候选片段和查询文本之间的相关性。我们利用二元交叉熵函数计算每个分支的定位损失:
Figure BDA0002745242650000084
其中,
Figure BDA0002745242650000085
表示根据候选片段相关性分数转化的0~1之间的预测标签,Vt表示t阶段有效的候选片段的数目,
Figure BDA0002745242650000086
是每个候选片段的真实标签。在应用时,我们采用了“软标签”的思想,也就是每一个候选片段的真实标签并不全是非1即0的值,我们根据候选片段和目标片段的交并比(IoU,Intersection over Union)
Figure BDA0002745242650000087
进行分类。可以表示为:
Figure BDA0002745242650000088
其中τ是阈值(τ可取0.5)。
最后,模型T个分支总的损失可以表示为:
Figure BDA0002745242650000089
其中λt代表了t阶段所占的权重。
有了总的损失函数,就可以通过端到端的方式训练我们的渐进式定位网络模型。
值得注意的是,由于步骤(2-2)稀疏采样策略,相关性分数矩阵中的分数并不都是有效的。我们用一个和候选片段特征矩阵同形状的矩阵记录每个有效的位置,最后的相关性分数会通过各自分支的记录矩阵进行过滤。
另外,模型最后能产生若干个不同时间粒度的相关性分数矩阵,通过条件特征更新模块和上采样连接使得细时间粒度分支往往能有更好的性能。
(9)通过步骤(8)的训练,模型已经学习到如何从候选片段中选择和查询文本最相关的一个。给定一句查询和一个相应的视频,模型最后能输出和查询最相关的片段在视频中的时间节点,步骤如下:
(9-1)将给定的文本和视频输入模型,能得到若干个不同时间粒度的相关性分数矩阵;
(9-2)选择粒度最细的分支的分数矩阵,经记录矩阵过滤无效分数后,按分数的高低排序,选择分数最高的一个,并根据它的坐标和之前采样的步长转化为原始的时间,返回结果。
以上,我们介绍了两个分支的渐近式定位网络的具体实现步骤。在实际应用中,可以通过合理的选择步长来增加分支,由此得到最好的效果。
以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。

Claims (8)

1.一种面向文本到视频片段定位的渐进式定位方法,其特征在于,包括以下步骤:
(1)利用不同的特征提取方法分别提取视频和文本的特征;
(2)粗时间粒度定位阶段:以较大的步长对在步骤(1)中得到的视频特征进行采样,并产生候选片段;
(3)将步骤(2)中的候选片段和步骤(1)得到的文本特征融合;
(4)将融合后的特征通过一个两层的卷积神经网络学习候选片段和文本之间的相关性,得到一个和输入同形状的中间特征矩阵,将中间特征矩阵通过FC层得到粗时间粒度定位阶段候选片段的相关性分数矩阵;
(5)细时间粒度定位阶段:以较小的步长对在步骤(1)中得到的视频特征进行采样,得到一系列时间上有序的基础片段特征向量;结合步骤(4)中得到的特征矩阵通过条件特征更新模块对基础片段特征向量进行更新,通过基础片段的组合能够得到一系列时间上连续的片段,条件特征更新模块是利用粗时间粒度定位阶段的信息,通过学习权重对当前阶段的特征进行更新;利用稀疏采样策略从所有可能的片段中选出候选片段,对每一个候选片段区间内的基础片段进行最大池化操作得到候选片段的特征,用二维矩阵表示所有候选片段的特征,得到细时间粒度定位阶段的候选片段二维特征矩阵;
(6)将步骤(5)中的候选片段和步骤(1)得到的文本特征融合,结合步骤(4)中得到的特征矩阵通过上采样连接融合上阶段的信息;
(7)将融合后的特征经过卷积神经网络得到细粒度的特征矩阵,然后通过FC层得到相关性分数矩阵;
(8)利用二元交叉熵损失分别计算步骤(4)和步骤(7)中得到的相关性分数矩阵的损失值,以一定的权重结合,最后以端到端的方式训练模型;
(9)利用步骤(8)训练得到的模型实现基于文本的视频片段定位。
2.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法,其特征在于,所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤:
(1-1)以一定的间隔将视频分割成若干视频单元,利用预训练的CNN模型对每一个视频单元按帧进行视觉特征提取,然后通过平均池化和FC层,最后获得视频特征;
(1-2)利用Glove word2vec模型将文本中的每个单词转化为嵌入向量,利用LSTM网络学习词与词之间的联系,把最后一个隐藏状态的输出特征作为文本特征。
3.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法,其特征在于,所述步骤(2)具体包括以下子步骤:
(2-1)以较大步长对在步骤(1)中得到的视频特征进行采样,得到时间上有序的基础片段特征向量,通过基础片段的组合能够得到一系列时间上连续而长度不一的片段;
(2-2)利用稀疏采样策略从所有可能的片段中选出候选片段,尽可能减少冗余信息而不影响模型性能;
(2-3)对每一个候选片段区间内的基础片段进行最大池化操作得到候选片段的特征;
(2-4)用二维矩阵表示所有候选片段的特征,每一个候选片段开始和结束的位置对应在二维矩阵的坐标,把它的特征放到对应位置,最后得到候选片段的二维特征矩阵。
4.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法,其特征在于,所述步骤(3)中,分别将文本特征和候选片段特征通过FC层映射到相同维度空间,然后通过Hadamard乘法和Frobenius归一化,得到融合后的特征。
5.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法,其特征在于,通过条件特征更新模块更新基础片段特征向量的具体步骤如下:
通过最大池化操作将t-1阶段的中间特征矩阵Ht-1转化为ht-1
对每一个t阶段的基础片段特征向量
Figure FDA0003491512830000021
结合t-1阶段的信息学习一个权重
Figure FDA0003491512830000022
用公式表示如下:
Figure FDA0003491512830000023
其中,
Figure FDA0003491512830000024
Figure FDA0003491512830000025
表示待学习的参数,⊙表示Hadamard乘法,sigmoid表示非线性sigmoid函数;
根据学到的权重
Figure FDA0003491512830000026
得到每一个基础片段更新后的特征向量
Figure FDA0003491512830000027
即:
Figure FDA0003491512830000028
6.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法,其特征在于,所述步骤(6)具体包括以下子步骤:
(6-1)将候选片段特征和文本特征融合得到t阶段的融合特征Ft
(6-2)将步骤(4-1)得到的t-1阶段的中间特征矩阵Ht-1通过上采样连接与步骤(6-1)得到的t阶段的特征矩阵Ft融合,得到融合后的特征矩阵Gt,公式如下:
Figure FDA0003491512830000029
其中,下标n表示通过n次的上采样和卷积操作,下标k表示卷积核的大小,
Figure FDA00034915128300000210
表示逐元素最大池化,sigmoid表示非线性sigmoid函数。
7.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法,其特征在于,所述步骤(7)具体包括以下子步骤:
(7-1)将融合后的特征通过一个两层的卷积神经网络学习候选片段和文本之间的相关性,得到细时间粒度的中间特征矩阵;
(7-2)将步骤(7-1)得到的中间特征矩阵通过FC层得到细时间粒度定位阶段候选片段的相关性分数矩阵。
8.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法,其特征在于,所述步骤(9)中,利用训练好的模型渐进地实现视频片段的定位包括以下步骤:
(9-1)将查询文本和对应视频输入模型,得到不同时间粒度的相关性分数矩阵;
(9-2)选择粒度最细的阶段的相关性分数矩阵,按分数高低将候选片段排序,选择分数最高的候选片段,返回它在原始视频的位置信息。
CN202011164289.2A 2020-10-27 2020-10-27 面向文本到视频片段定位的渐进式定位方法 Active CN112380394B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011164289.2A CN112380394B (zh) 2020-10-27 2020-10-27 面向文本到视频片段定位的渐进式定位方法
PCT/CN2020/127657 WO2022088238A1 (zh) 2020-10-27 2020-11-10 面向文本到视频片段定位的渐进式定位方法
US18/303,534 US11941872B2 (en) 2020-10-27 2023-04-19 Progressive localization method for text-to-video clip localization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011164289.2A CN112380394B (zh) 2020-10-27 2020-10-27 面向文本到视频片段定位的渐进式定位方法

Publications (2)

Publication Number Publication Date
CN112380394A CN112380394A (zh) 2021-02-19
CN112380394B true CN112380394B (zh) 2022-05-10

Family

ID=74576381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011164289.2A Active CN112380394B (zh) 2020-10-27 2020-10-27 面向文本到视频片段定位的渐进式定位方法

Country Status (3)

Country Link
US (1) US11941872B2 (zh)
CN (1) CN112380394B (zh)
WO (1) WO2022088238A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128431B (zh) * 2021-04-25 2022-08-05 北京亮亮视野科技有限公司 视频片段检索方法、装置、介质与电子设备
CN113590881B (zh) * 2021-08-09 2024-03-19 北京达佳互联信息技术有限公司 视频片段检索方法、视频片段检索模型的训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
CN110083741A (zh) * 2019-04-11 2019-08-02 中国科学技术大学 文本与图像联合建模的面向人物的视频摘要提取方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111582170A (zh) * 2020-05-08 2020-08-25 浙江大学 利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US9911223B2 (en) * 2016-05-13 2018-03-06 Yahoo Holdings, Inc. Automatic video segment selection method and apparatus
EP3532906A4 (en) * 2016-10-28 2020-04-15 Vilynx, Inc. VIDEO LABELING SYSTEM AND METHOD
CN108229280B (zh) * 2017-04-20 2020-11-13 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN109145712B (zh) * 2018-06-28 2020-10-16 南京邮电大学 一种融合文本信息的gif短视频情感识别方法及系统
US11568247B2 (en) * 2019-03-22 2023-01-31 Nec Corporation Efficient and fine-grained video retrieval
CN110121118B (zh) * 2019-06-17 2021-08-06 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质
CN111414845B (zh) * 2020-03-18 2023-06-16 浙江大学 基于空间-时间图推理网络的多形态语句视频定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
CN110083741A (zh) * 2019-04-11 2019-08-02 中国科学技术大学 文本与图像联合建模的面向人物的视频摘要提取方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111582170A (zh) * 2020-05-08 2020-08-25 浙江大学 利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"HCRF和网络文本的精彩事件自动检测定位";同鸣等;《西安电子科技大学学报》;20150831;81-87 *

Also Published As

Publication number Publication date
US11941872B2 (en) 2024-03-26
WO2022088238A1 (zh) 2022-05-05
US20230260267A1 (en) 2023-08-17
CN112380394A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN106919646B (zh) 中文文本摘要生成系统及方法
WO2021164772A1 (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN110765281A (zh) 一种多语义深度监督跨模态哈希检索方法
CN109299216A (zh) 一种融合监督信息的跨模态哈希检索方法和系统
CN111309971A (zh) 一种基于多级编码的文本到视频的跨模态检索方法
CN112380394B (zh) 面向文本到视频片段定位的渐进式定位方法
CN113762052A (zh) 视频封面提取方法、装置、设备及计算机可读存储介质
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN113688878B (zh) 一种基于记忆力机制和图神经网络的小样本图像分类方法
CN118103834A (zh) 一种信息获取方法以及装置
WO2021082086A1 (zh) 机器阅读方法、系统、装置及存储介质
CN111831783B (zh) 一种篇章级关系抽取方法
CN113128431B (zh) 视频片段检索方法、装置、介质与电子设备
CN116204706A (zh) 一种文本内容结合图像分析的多模态内容检索方法与系统
CN111582576A (zh) 一种基于多尺度特征融合和门控单元的预测系统及方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN115455171A (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
CN113807307B (zh) 一种用于视频多行为识别的多模态联合学习方法
CN117392488A (zh) 一种数据处理方法、神经网络及相关设备
CN113641789B (zh) 基于分层融合多头注意力网络和卷积网络的观点检索方法及系统
CN115700579A (zh) 广告文本生成方法及其装置、设备、介质
CN114021550A (zh) 一种基于图卷积神经网络的新闻趋势预测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant