CN112348102B

CN112348102B - 一种基于查询的自底向上视频定位方法和系统

Info

Publication number: CN112348102B
Application number: CN202011278817.7A
Authority: CN
Inventors: 庄越挺; 肖俊; 汤斯亮; 吴飞; 浦世亮; 张世峰; 任文奇
Original assignee: Zhejiang University ZJU; Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Zhejiang University ZJU; Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2024-03-19
Anticipated expiration: 2040-11-16
Also published as: CN112348102A

Abstract

本发明公开了一种基于查询的自底向上视频定位方法和系统。首先，获取查询内容Query和待定位视频Ref，其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图中。最后特征图通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。

Description

一种基于查询的自底向上视频定位方法和系统

技术领域

本发明涉及机器学习，自然语言处理和计算机视觉研究中的深度神经网络、视频定位这几个主要领域。具体涉及一种基于查询的自底向上视频定位方法和系统。

背景技术

视频比图像具有更复杂的特征与属性，使用计算机对视频内容的理解与分析，一直以来是计算机视觉的一个重要研究方向。在近些年来，得益于深度学习的发展和服务器算力的提升，视频定位的质量得到显著的提升。

视频定位一直是计算机视觉领域的一个基本课题。基于查询的视频定位方法是指在一个长且未修剪的视频中找出与查询内容相关的视频片段，并标记出该视频片段在长视频中的起始位置和终止位置。当前流行的基于查询的视频定位方法主要分为自顶向下方法和自底向上方法。

自顶向下方法是指将长视频切割为一组候选片段，然后对每个片段进行分类和回归。分类操作是预测其是正负样本的概率。回归操作是对正样本的起止位置进行回归计算，使其更接近于真实样本GT-v的起止位置。然而自顶向下方法的计算量非常大，需要巨大的算力。而且自顶向下的方法的模型对初始化参数比较敏感，初始化参数的好坏对模型性能有很大影响。

自底向上方法是指将整个查询内容注入到每个视频帧中，然后预测每个视频帧与真实视频片段GT-v的起止位置的偏移量。传统的自底向上方法有两个主要的问题：1)它们只取真实视频片段GT-v的左右边界帧作为前景，其余帧作为背景。这就导致模型在训练过程中，正负样本严重不平衡，从而影响了检测性能；2)它们的起始位置预测与终止位置预测都是相互独立的，这就忽略了两种预测在内容上的一致性。基于这两个主要问题，传统的自底向上方法的性能普遍落后于自顶向下方法的性能。

发明内容

针对传统自底向上方法中的两个问题，本发明提出一种基于查询的自底向上视频定位方法。首先，将查询内容Query的特征与待定位视频Ref的特征融合到一个新的特征图中，然后将该融合后的特征图分别输入到边界回归网络和置信度分类网络中，计算出每一视频帧的与真实视频片段GT-v的边界偏移量和置信度。最后根据临时池(TemporalPooling)方法计算出查询内容Query对应的预测视频片段在待定位视频Ref中的起始位置和终止位置，从而实现视频定位。

本发明的技术方案如下：

本发明提供了一种基于查询的自底向上视频定位方法，其包括如下步骤：

1)将查询内容Query的Glove特征和待定位视频Ref的C3D特征输入到图卷积网络中融合得到新的特征图其中/>T是待定位视频的长度，即视频帧数，D是单视频帧的特征向量的长度；

2)将特征图输入到边界回归网络中预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d)；同时，将特征图/>输入到置信度分类网络中预测出每一视频帧的置信度s；

3)利用帧在待定位视频Ref上的位置和其预测的左右边界的偏移量(left-d,right-d)，计算出每一视频帧的预测视频片段在Ref上的起始位置和终止位置(start,end)；

4)获取置信度s大于最大置信度设定的百分比，且与最大置信度对应的帧预测的起止位置(start,end)有重叠交叉的帧，将这些帧所对应的起止位置(start,end)放入到临时池中；最终取临时池中最小的起始位置和最大的终止位置作为最终预测的起止位置；

5)在网络训练环节，网络结构损失函数L分为边界回归损失和置信度分类损失两部分；使用梯度下降算法对L进行优化，并更新网络权重，返回步骤1)迭代训练不断提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距；迭代训练结束后，得到最终的图卷积操作网络、边界回归网络和置信度分类网络的权重；保存训练好的网络。

在测试环节，对于待查询的任务，执行步骤1)-步骤4)实现基于查询的自底向上视频定位。

本发明还公开了一种基于查询的自底向上视频定位系统，其包括：

图卷积操作网络模块，用于将查询内容Query的Glove和待定位视频Ref的C3D特征融合得到一个新的特征图

边界回归网络模块，以特征图为输入，用于预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d)；

置信度分类网络模块，以特征图为输入，用于预测出每一视频帧的置信度s；

训练模块，使用梯度下降算法对网络结构损失函数L进行优化，迭代训练提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距，迭代训练结束后得到最终的图卷积操作网络、边界回归网络和置信度分类网络的权重；并保存训练好的网络；

测试模块，调用训练好的网络，根据输入的查询内容的Glove特征和待定位视频的C3D特征，得到真实视频片段的起止位置。

与现有技术相比，本发明具有的有益效果是：

因为本发明方法采用的是预测每个视频帧与真实视频片段GT-v的起止位置的偏移量，避免了自顶向下的方法中将待定位视频Ref切割成多个小片段视频，然后计算每个小片段视频是真实视频片段的概率所需要非常大的计算量，所以本发明方法具有较小的计算复杂度和较好的性能稳定性。又因为本发明解决了正负样本不平衡的问题，使得方法可以高效而又准确的检测出视频片段的起止位置。同时，利用视频片段内容一致性的原理，一同预测起止位置。所以本方法与现有的自底向上的方法相比，大幅度提升了检测效果。

附图说明

图1为本发明的方法流程图；

图2ActivityNet Captions数据集中样本示例；

图3视频定位准确率随训练epoch变化曲线；

图4算法视频定位结果示例。

具体实施方式

下面结合具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1所示，为本发明的流程图，本发明的基于查询的自底向上视频定位方法，其包括如下步骤：

作为优选的方案，所述的步骤1)中，首先通过由多个卷积层、正则化层、自我注意层组成的编码器Encoder对Query的Glove特征和待定位视频Ref的C3D特征分别进行编码得到和/>接着进行如下矩阵运算将/>和/>融合为特征图H：其中S是/>和/>的相似矩阵，/>是S的行正则化矩阵，/>是S关于列正则化后的转置矩阵，⊙是点乘操作,i代表矩阵的行号；然后将H通过步长为2的卷积层下采样3个具有金字塔结构的特征集合/>其中T_i+1＝T_i/2；接下来分别对H_i进行如下图卷积操作得到/>X_i＝C_iH_i,Y＝((I-A_adj)X)W,其中C_i是H_i通过一层卷积得到的矩阵，W是权重，I是单位矩阵，A_adj是邻接矩阵，是C_i转置矩阵，X＝[X₁；X₂；X₃],Y＝[Y₁；Y₂；Y₃]；最后将H₁，H₂缩放为与H₃相同的大小，并将它们拼接得到新的特征图/>

作为优选的方案，所述边界回归网络输入数据是输出数据是/>置信度分类网络输入数据是/>输出数据是/>

作为优选的方案，所述步骤5)中，边界回归网络中的每一帧的监督数据t^*为(i-t_s,t_e–i)，其中i为该帧在待定位视频Ref的位置；t_s，t_e分别为真实视频片段GT-v在Ref的起止位置；置信度分类网络中的每一帧的监督数据

作为优选的方案，采用Adam梯度下降算法对L进行优化。

在本发明的另一个实施例提供了一种基于查询的自底向上视频定位系统，其包括：

图卷积操作网络模块，用于将查询内容Query的Glove特征和待定位视频Ref的C3D特征融合得到一个新的特征图

测试模块，调用训练好的网络，根据输入的查询内容Glove特征和待定位视频的C3D特征，得到真实视频片段的起止位置。

实例1

使用通用数据集ActivityNet Captions中的数据测试本方法基于查询(文本数据)的视频定位的能力。数据集包含平均时长为2分钟的19,209个视频，37,421对文本查询训练集，17505对测试集。图2显示了ActivityNet Captions数据集中样本示例。下面结合前面所述的具体技术方案说明该实例实施的步骤：

将查询内容Query的Glove特征和待定位视频Ref的C3D特征输入到图卷积网络中计算到一个新的特征图其中/>T是待定位视频的长度(视频帧数)，D是单视频帧的特征向量的长度；

将特征图输入到边界回归网络中预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d,right-d)。同时，将特征图/>输入到置信度分类网络中预测出每一视频帧的置信度s。边界回归网络输入数据是/>输出数据是/>置信度分类网络输入数据是/>输出数据是/>

利用帧在待定位视频Ref上的位置和其预测的左右边界的偏移量(left-d,right-d)，计算出每一视频帧的预测视频片段在Ref上的起始位置和终止位置(start,end)；

将置信度s大于最大置信度的70％，且与最大置信度对应的帧预测的起止位置(start,end)有重叠交叉的帧，它们所对应的起止位置(start,end)放入到一个临时池(Temporal Pooling)中。最终取临时池中最小的起始位置和最大的终止位置作为最终预测的起止位置；

整个损失函数分为边界回归损失和置信度分类损失两部分。边界回归网络中的每一帧的监督数据t^*为(i-t_s,t_e–i)，其中i为该帧在待定位视频Ref的位置；t_s，t_e分别为真实视频片段GT-v在Ref的起止位置；置信度分类网络中的每一帧的监督数据

为了简化表示，整个损失函数记为L。使用Adam梯度下降算法对L进行优化，不断提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距，最终得到神经网络的权重W；保存训练好的网络，从而实现基于查询的自底向上视频定位。

图3为视频定位准确率随训练epoch变化曲线(IoU@0.3表示模型预测起止位置与真实样本起止位置的时间区间重叠度为30％以上为检测正确；IoU@0.5表示模型预测起止位置与真实样本起止位置的时间区间重叠度为50％以上为检测正确)，由图看出IoU@0.3的检测正确率最大值为56.17％，IoU@0.5的检测正确率最大值为41.21％。图4为算法视频定位结果示例(GT：真实样本起止位置，GDP：模型预测起止位置)，由图看出模型预测起止位置与真实样本起止位置重叠度为91.27％，表明模型预测结果准确。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于查询的自底向上视频定位方法，其特征在于，包括如下步骤：

2)将特征图输入到边界回归网络中预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d，right-d)；同时，将特征图/>输入到置信度分类网络中预测出每一视频帧的置信度s；

3)利用帧在待定位视频Ref上的位置和其预测的左右边界的偏移量(left-d，right-d)，计算出每一视频帧的预测视频片段在Ref上的起始位置和终止位置(start，end)；

4)获取置信度s大于最大置信度设定的百分比，且与最大置信度对应的帧预测的起止位置(start，end)有重叠交叉的帧，将这些帧所对应的起止位置(start，end)放入到临时池中；最终取临时池中最小的起始位置和最大的终止位置作为最终预测的起止位置；

5)在网络训练环节，网络结构损失函数L分为边界回归损失和置信度分类损失两部分；使用梯度下降算法对L进行优化，并更新网络权重，返回步骤1)迭代训练不断提升每一视频帧的分类准确率同时减少其预测的左右边界值和真实的左右边界值之间的差距；迭代训练结束后，得到最终的图卷积网络、边界回归网络和置信度分类网络的权重；保存训练好的网络。

2.根据权利要求1所述的基于查询的自底向上视频定位方法，其特征在于，所述的步骤1)为：

通过编码器对Query的Glove特征和待定位视频Ref的C3D特征进行编码，然后对两个编码后的特征通过矩阵运算得到特征图H；将特征图H经过图卷积操作得到新的特征图

3.根据权利要求1或2所述的基于查询的自底向上视频定位方法，其特征在于，所述的步骤1)具体为：

首先通过由多个卷积层、正则化层、自我注意层组成的编码器Encoder对Query的Glove特征和待定位视频Ref的C3D特征分别进行编码得到和/>

接着进行如下矩阵运算将和/>融合为特征图H：

H＝Encoder([v_i，a_i，v_i⊙a_i，v_i⊙b_i])

其中S是和/>的相似矩阵，/>是S的行正则化矩阵，/>是S关于列正则化后的转置矩阵，⊙是点乘操作，i代表矩阵的行号；

然后将H通过步长为2的卷积层下采样3个具有金字塔结构的特征集合其中T_i+1＝T_i/2；接下来分别对H_i进行如下图卷积操作得到/>

X_i＝C_iH_i，Y＝((I-A_adj)X)W，

其中C_i是H_i通过一层卷积得到的矩阵，W是权重，I是单位矩阵，A_adj是邻接矩阵，是C_i转置矩阵，X＝[X₁；X₂；X₃]，Y＝[Y₁；Y₂；Y₃]；最后将H₁，H₂缩放为与H₃相同的大小，并将它们拼接得到新的特征图/>

4.根据权利要求1所述的基于查询的自底向上视频定位方法，其特征在于，所述边界回归网络输入数据是输出数据是/>置信度分类网络输入数据是/>输出数据是/>

5.根据权利要求1所述的基于查询的自底向上视频定位方法，其特征在于，所述步骤5)中，边界回归网络中的每一帧的监督数据t^*为(i-t_s，t_e-i)，其中i为该帧在待定位视频Ref的位置；t_s，t_e分别为真实视频片段GT-v在Ref的起止位置；置信度分类网络中的每一帧的监督数据

6.根据权利要求1所述的基于查询的自底向上视频定位方法，其特征在于，采用Adam梯度下降算法对L进行优化。

7.根据权利要求1所述的基于查询的自底向上视频定位方法，其特征在于，在测试环节，对于待查询的任务，执行步骤1)-步骤4)实现基于查询的自底向上视频定位。

8.一种基于查询的自底向上视频定位系统，其特征在于包括：

边界回归网络模块，以特征图为输入，用于预测出每一视频帧与真实视频片段GT-v左右边界的偏移量(left-d，right-d)；