CN112380394B

CN112380394B - 面向文本到视频片段定位的渐进式定位方法

Info

Publication number: CN112380394B
Application number: CN202011164289.2A
Authority: CN
Inventors: 董建锋; 郑琪; 彭敬伟; 王勋
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-05-10
Anticipated expiration: 2040-10-27
Also published as: US11941872B2; WO2022088238A1; US20230260267A1; CN112380394A

Abstract

本发明公开了一种面向文本到视频片段定位的渐进式定位方法，该方法包括：首先利用不同的特征提取方法分别提取视频和文本这两种模态的特征；接着渐近地选择不同的步长，多阶段地学习视频和文本之间的相关性；最后结合各个阶段的相关性损失，以端到端的方式训练模型。同时，通过条件特征更新模块和上采样连接让细时间粒度阶段融合粗时间粒度阶段的信息，使得不同阶段之间相互促进。不同阶段能关注不同时间粒度的片段，结合阶段之间的相互联系，使得模型能应对目标片段长度变化明显的情况。本发明借鉴人类在处理片段定位任务的思维方式，采用一种由粗到细的方式，多阶段、渐近地定位目标片段，在很大程度上提高了定位的性能。

Description

面向文本到视频片段定位的渐进式定位方法

技术领域

本发明涉及多媒体理解技术领域，尤其涉及一种面向文本到视频片段定位的渐进式定位方法。

背景技术

近年来，由于互联网和移动智能设备的普及以及通信和多媒体技术的迅速发展，每天都会有海量的视频被创造并上传至互联网。面对如此庞大的视频数据，如何从中快速且准确地找出用户需求的视频是一个艰巨的挑战。传统基于标签的检索无法适应视频内容的多样性，而基于文本的检索只是得到整个视频，并不能完全满足用户的需求，因为用户感兴趣的可能只是视频中的一个片段。在这样的背景下，基于文本的视频片段定位任务被提出并受到研究者的关注，它的目标是根据查询文本在一个完整的视频中找到与之语义最相关的一个片段。用户可以把自己感兴趣的内容转为文本描述，然后通过定位找到需要的片段或者整个视频。

由于任务的开放性，即用户感兴趣的内容可长可短，目标片段的长度会存在很大的差异。绝大部分的现有研究都是先产生足量长度各异的候选片段，然后把它们分别与查询文本进行比较，选择最相关的一个候选片段作为最终视频片段。在这种逻辑下，如何产生高质量的候选片段是解决这个任务的关键问题。绝大部分的现有研究都是先把视频以固定步长分割成一系列时间上有序的基础片段，然后组合那些时间上连续而长度各异的片段，得到各种长度的候选片段。在这种方式下，切割视频的步长选取就显得很重要，步长越大，分割产生的片段时间粒度越粗，得到的候选片段可能很难应对较短的目标片段；而更小的步长意味着分割产生的片段时间粒度更细，这样能应对较短的目标片段，但会使候选片段包含更多的冗余信息，阻碍学习目标的优化。现有方法使用单独的步长只能产生唯一粒度大小的片段，需要在应对能力和模型优化之间有所取舍，难以达到平衡。

发明内容

本发明针对现有技术的不足，采用了一种多阶段、由粗到细的方法，提出了一个渐近式定位网络。该网络通过多阶段地选择不同大小的步长得到不同时间粒度的候选片段，每个阶段都有一个定位分支，学习不同时间粒度候选片段和文本的相似性。同时通过条件特征更新(CFU，Conditional Feature Update)模块和上采样连接将粗时间粒度分支的学习信息传递到细时间粒度的分支，使模型能应对目标片段长度变化明显的情况，在很大程度上提高了定位的性能。

本发明的目的是通过以下技术方案来实现的：一种面向文本到视频片段定位的渐进式定位方法，该方法包括以下步骤：

(1)利用不同的特征提取方法分别提取视频和文本的特征；

(2)粗时间粒度定位阶段：以较大的步长对在步骤(1)中得到的视频特征进行采样，并产生候选片段；

(3)将步骤(2)中的候选片段和步骤(1)得到的文本特征融合；

(4)将融合后的特征经过卷积神经网络得到粗粒度的特征矩阵，然后通过FC层得到相关性分数矩阵；

(5)细时间粒度定位阶段：以较小的步长对在步骤(1)中得到的视频特征进行采样，结合步骤(4)中得到的特征矩阵通过条件特征更新模块进行特征更新，然后产生候选片段；

(6)将步骤(5)中的候选片段和步骤(1)得到的文本特征融合，结合步骤(4)中得到的特征矩阵通过上采样连接融合上阶段的信息；

(7)将融合后的特征经过卷积神经网络得到细粒度的特征矩阵，然后通过FC层得到相关性分数矩阵；

(8)利用二元交叉熵损失分别计算步骤(4)和步骤(7)中得到的相关性分数矩阵的损失值，以一定的权重结合，最后以端到端的方式训练模型；

(9)利用步骤(8)训练得到的模型实现基于文本的视频片段定位。

进一步地，所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤：

(1-1)以一定的间隔将视频分割成若干视频单元，利用预训练的CNN模型对每一个视频单元按帧进行视觉特征提取，然后通过平均池化和FC层，最后获得视频特征；

(1-2)利用Glove word2vec模型将文本中的每个单词转化为嵌入向量，利用LSTM网络学习词与词之间的联系，把最后一个隐藏状态的输出特征作为文本特征。

进一步地，所述步骤(2)具体包括以下子步骤：

(2-1)以较大步长对在步骤(1)中得到的视频特征进行采样，得到时间上有序的基础片段特征向量，通过基础片段的组合可以得到一系列时间上连续而长度不一的片段；

(2-2)利用稀疏采样策略，从所有可能的片段中选出候选片段，尽可能减少冗余信息而不影响模型性能；

(2-3)对每一个候选片段区间内的基础片段进行最大池化操作得到候选片段的特征；

(2-4)用二维矩阵表示所有候选片段的特征，每一个候选片段开始和结束的位置对应在二维矩阵的坐标，把它的特征放到对应位置，最后得到候选片段的二维特征矩阵。二维矩阵的形式使我们的网络能一次性处理所有的候选片段，让它们同时学习和文本之间的相关性，而且在学习过程中能利用候选片段之间的关系，提高网络的性能。

进一步地，所述步骤(3)中，分别将文本特征和候选片段特征通过FC层映射到相同维度空间，然后通过Hadamard乘法和Frobenius归一化，得到融合后的特征。

进一步地，所述步骤(4)具体包括以下子步骤：

(4-1)将融合后的特征通过一个两层的卷积神经网络学习候选片段和文本之间的相关性，得到一个和输入同形状的中间特征矩阵，它会传递学习信息给细时间粒度定位阶段；

(4-2)将步骤(4-1)得到的中间特征矩阵通过FC层得到粗时间粒度定位阶段候选片段的相关性分数矩阵。

进一步地，所述步骤(5)具体包括以下子步骤：

(5-1)以较小的步长对在步骤(1)中得到的视频特征进行采样，得到一系列时间上有序的基础片段特征向量；

(5-2)利用步骤(4-1)得到的中间特征矩阵，通过条件特征更新模块对基础片段特征向量进行更新，通过基础片段的组合可以得到一系列时间上连续的片段；我们希望当前阶段能侧重那些和文本相关性比较大的区域，而这种信息在粗时间粒度定位阶段已经学习过，条件特征更新模块就是利用粗时间粒度定位阶段的信息，通过学习权重对当前阶段的特征进行更新；

(5-3)利用稀疏采样策略从所有可能的片段中选出候选片段，对每一个候选片段区间内的基础片段进行最大池化操作得到候选片段的特征，用二维矩阵表示所有候选片段的特征，得到细时间粒度定位阶段的候选片段二维特征矩阵。

进一步地，通过条件特征更新模块更新基础片段特征向量的具体步骤如下：

通过最大池化操作将t-1阶段的中间特征矩阵H^t-1转化为h^t-1；

对每一个t阶段的基础片段特征向量

结合t-1阶段的信息学习一个权重

用公式表示如下：

其中，

和

表示待学习的参数，⊙表示Hadamard乘法，sigmoid表示非线性sigmoid函数；

根据学到的权重

得到每一个基础片段更新后的特征向量

即：

进一步地，所述步骤(6)具体包括以下子步骤：

(6-1)将候选片段特征和文本特征融合得到t阶段的融合特征F^t；

(6-2)将步骤(4-1)得到的t-1阶段的中间特征矩阵H^t-1通过上采样连接与步骤(6-1)得到的t阶段的特征矩阵F^t融合，得到融合后的特征矩阵G^t，公式如下：

其中，下标n表示通过n次的上采样和卷积操作，下标k表示卷积核的大小，

表示逐元素最大池化，sigmoid表示非线性sigmoid函数。

细时间粒度定位阶段能更好的应对目标片段较短的情形，但由于稀疏采样的策略，可能应对较长目标片段的能力有所缺失；上采样连接通过融合粗时间粒度的信息，使得细时间粒度定位阶段有更好的定位能力。

进一步地，所述步骤(7)具体包括以下子步骤：

(7-1)将融合后的特征通过一个两层的卷积神经网络学习候选片段和文本之间的相关性，得到细时间粒度的中间特征矩阵；

(7-2)将步骤(7-1)得到的中间特征矩阵通过FC层得到细时间粒度定位阶段候选片段的相关性分数矩阵。

进一步地，所述步骤(9)中，利用训练好的模型渐进地实现视频片段的定位包括以下步骤：

(9-1)将查询文本和对应视频输入模型，得到不同时间粒度的相关性分数矩阵；

(9-2)选择粒度最细的阶段的相关性分数矩阵，按分数高低将候选片段排序，选择分数最高的候选片段，返回它在原始视频的位置信息。

本发明的有益效果是：本发明首先利用不同的特征提取方法分别提取视频和文本这两种模态的特征；接着渐近地选择不同的步长，多阶段地学习视频和文本之间的相关性；最后结合各个阶段的相关性损失，以端到端的方式训练模型。同时，通过条件特征更新模块和上采样连接让细时间粒度阶段融合粗时间粒度阶段的信息，使得不同阶段之间相互促进。不同阶段能关注不同时间粒度的片段，结合阶段之间的相互联系，使得模型能应对目标片段长度变化明显的情况。本发明借鉴人类在处理片段定位任务的思维方式，采用一种由粗到细的方式，多阶段、渐近地定位目标片段，在很大程度上提高了定位的性能。

附图说明

图1为本发明面向文本到视频片段定位的渐进式定位网络结构示意图；

图2为渐近式定位网络中条件特征更新模块(CFU)的结构示意图。

具体实施方式

以下将结合附图和具体实施方式对本发明进行详细说明。

为解决文本到视频片段的定位问题，本发明提出了一种面向文本到视频片段定位的渐进式定位方法，该方法基于渐进式定位网络实现，渐进式定位网络结构如图1所示。该方法具体步骤如下：

(1)利用不同的特征提取方法分别提取视频和文本这两种模态的特征。

(1-1)对于给定的一个视频，对它进行分割得到256个视频单元(注意由于每个视频的长度不一样，所以分割后每个视频单元的长度也不一样)。对每一个视频单元，我们利用在ImageNet数据集上训练好的卷积神经网络(CNN)模型提取所有帧的深度特征，通过平均池化合并每个视频单元内的特征，然后通过FC层进行降维，得到视频单元的特征向量。这样，视频就可以用一系列特征向量来描述，

其中

表示第i个视频单元的特征向量，d^v＝512表示特征向量的维度，l^v＝256代表视频单元的数量；

(1-2)给定长度为l^s的句子，利用GloVe word2vec模型，将每个单词转化为嵌入向量，可以得到一个单词嵌入向量序列

其中w_t表示第t个单词的嵌入向量。由于句子中单词与单词之间的联系十分密切，理解各单词之间的上下文关系对文本特征的充分表达十分重要。LSTM是一种特殊的循环神经网络(RNN)，能够学习句子中单词之间的依赖关系。因此，我们让嵌入向量序列通过3层双向LSTM网络的学习，让词与词之间建立充分的联系，选择最后一个隐藏状态的输出向量作为文本的特征向量，用

表示，其中d^s＝512表示LSTM网络每一个隐藏状态的尺寸。

(2)得到视频特征和文本特征后，需要产生候选片段。我们采用由粗到细、渐近的思想去解决文本到视频片段的定位任务，因此首先用较大的步长，让模型学习粗时间粒度的候选片段和文本之间的相关性，我们称之为粗时间粒度分支。首先构建候选片段的特征矩阵，具体步骤如下：

(2-1)用一个较大的步长s¹对步骤(1-1)得到的视频特征进行采样，得到一系列基础片段，即

表示第i个基础片段的特征向量，它是由对应区间内的视频特征向量通过平均池化得到的。平均池化能让基础片段保留相应区间内的视频信息。N¹＝l^v/s¹表示基础片段的数量。为了表示不同步长的各个阶段，我们用上标表示当前阶段(例如这里的上标1表示第1阶段)，随着上标的增加，步长会倍数减小，从而得到不同时间粒度的特征表达。

(2-2)对于步骤(2-1)得到的N¹个基础片段，理论上有

个不同的候选片段。为了减小计算消耗，去除更多的冗余信息，模型采取一定的策略选择候选片段：如果N¹≤16，选择所有可能的候选片段；否则，对于任意一个从

到

的片段，如果满足G(a,b)＝1，则被选择。G(a,b)可由下式得到：

G(a,b)←(amods＝0)&((b-s^′)mod s＝0)，

其中s和s^′的定义如下：

s＝2^k-1,

这里，

表示向上取整函数。

(2-3)进一步地，对选出的每一个候选片段包含的基础片段特征进行最大池化处理，得到候选片段的特征向量。如对一个从

到

的候选片段，它的特征

在这里，最大池化操作类似于一种特征选择，我们希望辨识度更好的特征能保留进行下一步的学习。

(2-4)把所有候选片段的特征向量根据它的位置存入二维特征矩阵，得到

其中，

所有无效的位置(包括未被选择的和不满足开始时间小于结束时间的)都用0填充。

(3)得到候选片段的特征矩阵后，我们需要结合文本的信息，具体步骤如下：

先分别将文本特征和候选片段特征通过FC层映射到d^u＝512维的空间，然后通过Hadamard乘法和Frobenius归一化，得到融合后的特征F¹。以上过程可以表述为：

F¹＝||(W_v·M¹)⊙(W_s·f_s·1^T)||_F

其中W_v和W_s分别是候选片段特征和文本特征在FC层待学习的参数，1^T表示全1的行向量，⊙和||·||_F分别代表Hadamard乘法和Frobenius归一化。

(4)将融合后的特征经过卷积神经网络得到特征矩阵，然后通过一个全连接(FC)层得到相关性分数矩阵，具体步骤如下：

(4-1)让融合后的特征F¹通过一个两层的卷积神经网络学习候选片段和文本之间的相关性，得到特征矩阵H¹。在两层卷积神经网络中，我们使用5×5的卷积核。同时，由于矩阵H¹的形状与候选片段的位置有关，我们希望它最后能保持不变，所以在卷积过程中使用了填充(padding)；

(4-2)通过卷积网络的学习，模型已经学到了候选片段和文本之间的相关性，这些信息隐藏在特征矩阵H¹中。为了让特征矩阵中的相关性信息更明确，我们让特征矩阵H¹通过一个FC层得到一个相关性分数矩阵

矩阵P¹中每一个位置的数值代表了当前位置的候选片段与查询文本的相关性，分数越高意味着候选片段和文本越相关。相关性分数矩阵的获得可以用公式表示如下：

P¹＝W¹·H¹+b¹

其中W¹和b¹是FC层待学习的参数。

(5)得到粗时间粒度分支的相关性分数意味着当前分支的定位已经完成，但这个分支关注的只是粗时间粒度的候选片段，并不能应对较短的目标片段。我们的渐近式定位网络还有一个细时间粒度定位分支，解决第一个分支的缺陷，关注那些较短的目标片段。当然，两个分支不是独立学习，我们设计了条件特征更新模块和上采样连接将两个分支连接起来。

对于细时间粒度分支的学习，我们首先构建候选片段的特征矩阵，具体步骤如下：

(5-1)用一个较小的步长s²(相对于步骤(2-1)而言)对步骤(1-1)得到的视频特征进行采样，得到基础片段特征向量

(5-2)在产生候选片段之前，我们第一次利用上一个分支学到的信息。步骤(4-1)得到的特征矩阵H¹隐含候选片段和查询文本的相关性，我们希望结合它对C²进行更新。通过条件特征更新模块更新基础片段特征向量C²，如图2所示，具体步骤如下：

首先，通过最大池化操作把

转化为

然后，对每一个

结合上一分支的信息学习一个权重

用公式表示如下：

其中，

和

表示待学习的参数，⊙表示Hadamard乘法，sigmoid表示非线性sigmoid函数。

最后，可以用学到的权重得到每一个基础片段更新后的特征向量

即：

通过条件特征更新模块，我们让粗时间粒度分支学到的相关性信息传递到细时间粒度分支，让那些相关性更强的区域能得到更多的关注。

(5-3)得到更新后的基础片段的特征向量

采用步骤(2-2)、(2-3)、(2-4)的方法，得到细时间粒度分支的二维特征矩阵M²。

(6)同样地，细时间粒度分支的候选片段特征需要融合文本信息，之后，我们会第二次利用粗时间粒度分支的信息。具体步骤如下：

(6-1)采用步骤(3)的方法，将候选片段特征矩阵和文本特征融合得到融合特征F²；

(6-2)步骤(5-2)通过学习一个权重，间接利用了上一分支的相关信息。在这里，我们希望能更直接地利用它们，为此设计了上采样连接。具体细节如下：

首先应该明确，上一分支包含相关信息的是步骤(4-1)中通过卷积神经网络学习的特征矩阵H¹。

接着，注意到由于两个分支的步长不同，所以H¹和F²的形状有差异，而且F²的形状应该更大。所以首先让H¹通过上采样(upsample)，使得两者形状一致。

然后，让上采样后的H¹通过两层卷积神经网络(Conv_k，下标k表示卷积核的大小，k可以取3)。

经过n次上采样和卷积操作，使得H¹和F²的形状一致后，再应用激活函数sigmoid。

最后，我们让它与融合特征F²通过逐元素最大池化

进行融合，得到特征矩阵G²。

上述过程可以表述为：

其中，下标n表示我们通过n次的上采样和卷积操作，也意味着每次上采样让H¹的形状扩大了

倍。

条件特征更新模块通过约束使得细粒度分支对视频特征有所侧重，上采样连接通过特征选择保留两个阶段候选片段中辨识度更好的特征，从而使得模型有更好的定位能力。

(7)采用和步骤(4-2)一样的方法，通过两层卷积神经网络和FC层，得到细时间粒度分支的相关性分数矩阵P²。

(8)经过以上步骤，每个分支都得到了一个相关性分数矩阵，每个分支都能学习候选片段和查询文本之间的相关性。我们利用二元交叉熵函数计算每个分支的定位损失：

其中，

表示根据候选片段相关性分数转化的0～1之间的预测标签，V^t表示t阶段有效的候选片段的数目，

是每个候选片段的真实标签。在应用时，我们采用了“软标签”的思想，也就是每一个候选片段的真实标签并不全是非1即0的值，我们根据候选片段和目标片段的交并比(IoU，Intersection over Union)

进行分类。可以表示为：

其中τ是阈值(τ可取0.5)。

最后，模型T个分支总的损失可以表示为：

其中λ_t代表了t阶段所占的权重。

有了总的损失函数，就可以通过端到端的方式训练我们的渐进式定位网络模型。

值得注意的是，由于步骤(2-2)稀疏采样策略，相关性分数矩阵中的分数并不都是有效的。我们用一个和候选片段特征矩阵同形状的矩阵记录每个有效的位置，最后的相关性分数会通过各自分支的记录矩阵进行过滤。

另外，模型最后能产生若干个不同时间粒度的相关性分数矩阵，通过条件特征更新模块和上采样连接使得细时间粒度分支往往能有更好的性能。

(9)通过步骤(8)的训练，模型已经学习到如何从候选片段中选择和查询文本最相关的一个。给定一句查询和一个相应的视频，模型最后能输出和查询最相关的片段在视频中的时间节点，步骤如下：

(9-1)将给定的文本和视频输入模型，能得到若干个不同时间粒度的相关性分数矩阵；

(9-2)选择粒度最细的分支的分数矩阵，经记录矩阵过滤无效分数后，按分数的高低排序，选择分数最高的一个，并根据它的坐标和之前采样的步长转化为原始的时间，返回结果。

以上，我们介绍了两个分支的渐近式定位网络的具体实现步骤。在实际应用中，可以通过合理的选择步长来增加分支，由此得到最好的效果。

以上所述仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种面向文本到视频片段定位的渐进式定位方法，其特征在于，包括以下步骤：

(1)利用不同的特征提取方法分别提取视频和文本的特征；

(3)将步骤(2)中的候选片段和步骤(1)得到的文本特征融合；

(4)将融合后的特征通过一个两层的卷积神经网络学习候选片段和文本之间的相关性，得到一个和输入同形状的中间特征矩阵，将中间特征矩阵通过FC层得到粗时间粒度定位阶段候选片段的相关性分数矩阵；

(5)细时间粒度定位阶段：以较小的步长对在步骤(1)中得到的视频特征进行采样，得到一系列时间上有序的基础片段特征向量；结合步骤(4)中得到的特征矩阵通过条件特征更新模块对基础片段特征向量进行更新，通过基础片段的组合能够得到一系列时间上连续的片段，条件特征更新模块是利用粗时间粒度定位阶段的信息，通过学习权重对当前阶段的特征进行更新；利用稀疏采样策略从所有可能的片段中选出候选片段，对每一个候选片段区间内的基础片段进行最大池化操作得到候选片段的特征，用二维矩阵表示所有候选片段的特征，得到细时间粒度定位阶段的候选片段二维特征矩阵；

2.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法，其特征在于，所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤：

3.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法，其特征在于，所述步骤(2)具体包括以下子步骤：

(2-1)以较大步长对在步骤(1)中得到的视频特征进行采样，得到时间上有序的基础片段特征向量，通过基础片段的组合能够得到一系列时间上连续而长度不一的片段；

(2-2)利用稀疏采样策略从所有可能的片段中选出候选片段，尽可能减少冗余信息而不影响模型性能；

(2-4)用二维矩阵表示所有候选片段的特征，每一个候选片段开始和结束的位置对应在二维矩阵的坐标，把它的特征放到对应位置，最后得到候选片段的二维特征矩阵。

4.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法，其特征在于，所述步骤(3)中，分别将文本特征和候选片段特征通过FC层映射到相同维度空间，然后通过Hadamard乘法和Frobenius归一化，得到融合后的特征。

5.根据权利要求1所述的面向文本到视频片段定位的渐进式定位方法，其特征在于，通过条件特征更新模块更新基础片段特征向量的具体步骤如下：

通过最大池化操作将t-1阶段的中间特征矩阵H^t-1转化为h^t-1；

对每一个t阶段的基础片段特征向量