CN113934887B

CN113934887B - 一种基于语义解耦的无提议时序语言定位方法

Info

Publication number: CN113934887B
Application number: CN202111561246.2A
Authority: CN
Inventors: 沈复民; 蒋寻; 徐行; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-15
Anticipated expiration: 2041-12-20
Also published as: CN113934887A

Abstract

本发明公开了一种基于语义解耦的无提议时序语言定位方法，涉及跨模态内容检索领域，解决现有无提议定位机制中存在的技术问题，包括对原始视频进行解耦，分解出多层次的视觉特征流，并在各个视觉特征流内，进行模态内和跨模态的上下文建模，从而保持了基于候选提议方法的优势，采用跨语义的集成机制，将信息交互后的多模态上下文特征集成为细粒度特征，最后利用无提议定位的机制，直接求解出目标视频片段的开始与结束位置。利用无提议定位方法的边界定位机制的同时，使用了中间特征来辅助视频的内容理解，克服了现有无提议定位机制的缺陷。

Description

一种基于语义解耦的无提议时序语言定位方法

技术领域

本发明涉及多模态视频理解中的跨模态内容检索领域，具体涉及一种基于语义解耦的无提议时序语言定位方法。

背景技术

近年来互联网的发展导致多媒体数据呈指数级增长，使得许多应用向前迈进了一大步。在这一趋势的推动下，学术界和工业界都对多模态视频理解提出了新的需求，这在过去十年中吸引了大量的研究人员。时序语言定位是多模态视频理解任务中最具挑战性的任务之一。不同于跨模态视频文本检索，时序语言定位不是检索修剪过的短视频，而是根据描述目标时刻的给定语言查询在具有多个活动的未修剪视频中定位精确的开始和结束时间。

基于视频模态与文本模态的多模态研究，目前时序语言定位的方法一般可以分为以下两类：

（1）基于候选片段提议的方法：将时序动作定位视为视频文本检索问题。此类方法仿照两阶段时序动作生成框架，先在第一阶段生成视频片段作为候选，随后在第二阶段将这些候选提议与文本查询语句进行匹配；

（2）无提议时序语言定位方法：直接预测目标视频片段的开始与结束时间。此类方法不生成候选片段，而是直接利用回归或是细粒度的分类，直接求得目标视频片段的时间戳。

虽然基于这两种传统思路，现有时序语言定位的方法得到了一定的发展，但这两种方法仍然有各自的缺陷。基于候选提议的方法将原始视频裁剪成具有不同恒定尺度候选的视频剪辑序列。通常，在候选者丰富的情况下，与无提议方法相比，基于提议的方法可以获得更高的召回率。然而，受限于每个候选提议的恒定尺寸，它们很难适应目标片段的视频长度，例如，当目标片段超出预设置的尺寸候选比例的视频片段相关的查询，由于剪辑的预定义长度，这些候选框可能会导致预测结果与实际时序位置的错位，从而降低高精度定位上的性能。

与前者相比，无提议方法可以通过灵活的边界定位机制轻松解决这个问题，该机制可以适应不同的长度并实现更高的效率。然而，尽管有这些优点，现有的无提议方法也有两个缺点：(1)如果没有候选生成阶段，他们很难用段级交互对上下文进行建模。(2)他们高估了边界内的信息，对整个活动的重要性不够重视。因此，现有的无提议方法在大规模数据集上，召回性能篇低，通常在低精度指标上表现更差，而基于提议的方法则在这些方面显示出其优越性。

发明内容

本发明的目的在于：为了解决现有无提议定位机制中的技术问题，本发明提供了一种基于语义解耦的无提议时序语言定位方法，通过结合基于候选提议方案与传统无提议定位机制的优势，同时克服其各自的缺陷，从而提高时序语言定位的效果。

本发明采用的技术方案如下：

一种基于语义解耦的无提议时序语言定位方法，包括以下步骤，

步骤1：选择训练数据集；

步骤2：加载预训练的2D或3D卷积神经网络的模型参数，对步骤1中的数据集提取原始视频特征；

步骤3：对于步骤1中数据集、给定自然语言查询语句Q，其具有

个单词，首先使用GLoVE词嵌入，将各个词汇表示为维度为300的词向量，再通过两层双向门控循环单元，将所得到的前向与后向特征结合起来，得到查询的单词级文本特征；

步骤4：对步骤2中的原始视频特征根据其潜在语义进行解耦，得到三条语义分支、求得三条具有不同语义的特征流；

步骤5：对步骤4中三条特征流内部进行特征交互、得到三个不同的视频上下文特征，并将三个不同的视频上下文特征、分别和步骤3中的单词级文本特征进行融合、得到三个模态上下文；

步骤6：根据语义之间的潜在联系，将步骤5中三个模态上下文的特征进行集成，表征为细粒度语义特征；

步骤7：通过估算目标片段的开始与结束的概率分布，求出最大可能为边界的特征，并根据该特征计算出原视频中开始与结束的时序位；增加中间特征预测分支，挖掘目标片段内容；

步骤8：建目标函数，提供训练准则；

步骤9：采用Adam优化器，采用恒定学习率策略对模型进行训练。

进一步地，还包括验证方式，

步骤10：使用训练完成的基于语义解耦的无提议时序语言定位模型对视频和文本对进行视频片段检索，以验证模型效果。

进一步地，所述步骤2更详细地包括，

假设未经裁剪的视频V，具有

个视频帧序列，首先利用卷积神经网络将视频中的每帧或者相邻几帧映射到高维空间，提取出视频特征F：

其中

为位置

处的特征，

为特征总长度，

为视频特征空间维度。

进一步地，所述步骤4更详细地包括，语义解耦模块包括三个具有不同采样稀疏度与感受野的池化采样层，三个独立的特征编码全卷积层，一层共享的位置编码层；

特征流F _sem表示为以下公式：

其中，F为视频特征，

，

，分别为不同池化采样层的步长与池化宽度；PE(.)、Conv1D(.)、MaxPooling(.)分别代表位置编码层，卷积编码层，池化采样层；其中，位置编码层为三条特征流共享。

进一步地，所述步骤5更详细地包括，

步骤5.1：对三条特征流内部进行特征交互、得到三个不同的视频上下文特征C_S，

视频上下文特征C_S，通过以下公式得到：

其中，Resblock(.)代表残差块，MultiHeadAttn(.)代表多头注意力机制，Softmax(.)、ReLU(.)、BN(.)、Conv1D(.)分别代表归一化指数函数、非线性化激活层、批量归一化层、时序卷积层；

表示由第n个残差块处理后的特征；

表示未经残差块处理的特征，即首个残差块输入的特征；S _m、D _m分别为时序卷积和尺寸核残差块数量；W _q 、W _k 、W _v ¹分别为多头注意力机制中查询、键、值可学习参数矩阵；n _h为多头注意力机制中的注意力头数量，d为块内维度；视频上下文特征

，其中

为对应语义分支的特征长度；

步骤5.2：将单词级文本特征H_q转换为具有较强分辨率的跨模态特化表征，并分别与三个不同的视频上下文特征C_S融合、得到三个跨模态上下文。

进一步地，所述步骤5.2更详细地包括，

步骤5.21：给定一个语义分支的单词级文本特征H_q和视频上下文特征C_S，量化单词对每个视频上下文特征C_S的不同贡献，并对原始的单词级文本特征进行加权求得更新后的文本模态特征；

计算强度矩阵：

，其中

代表量化后的第j个单词对第

个视频特征的贡献；通过该强度矩阵，可以将原始查询文本特征转化为跨模态特化表征形式F _q；

计算过程为：

其中，W _r 、W _v ² 、W _h 、W _m分别为多模态融合第一、第二、第三、第四可学习参数矩阵；

步骤5.22：在得到更新的文本模态特征后，跨模态特化表征与到三个不同的视频上下文特征C _s融合、得到跨模态上下文建模模块，该视频-文本上下文建模可以由以下公式描述：

W _cm 、W _v ³ 、W _t分别为跨模态上下文建模第一、第二、第三可学习参数矩阵、C _cm为跨模态上下文特征；

代表由第n个残差块处理后的特征；

最后，收集三条不同特征流的跨模态上下文特征，表示为：

。

进一步地，所述步骤6更详细地包括，

给定事件级别的上下文特征：

和动作上下文特征：

，将后者作为查询特征，前者作为键和对应值，求得跨语义推理的事件级别特征，随后与细粒度的动作级别特征结合，求得第一阶段的集成特征；

再对第一阶段集成特征和场景级别的上下文特征

重复集成操作、在集成阶段的末尾，使用自注意力机制强化处于目标视频片段中的特征，求得最终的细粒度跨语义特征。

进一步地，所述步骤7更详细地包括，

给定最终的集成特征C _final，该目标片段定位过程可描述为：

其中，

代表三条预测分支的概率分布，给定原始视频长度

和集成特征长度

，最终所求得目标片段的时序位置为：

其中argmax(.)代表求最大概率的特征点的索引，

和

分别为预测的起始概率分布和结束概率分布。

进一步地，所述步骤8更详细地包括，

步骤8.1：构建定位损失、该部分为核心的损失函数，用以引导模型求出正确的边界位置分布；给定开始与结束的预测分布，基于KL散度计算模型预测与实际位置的分布差异：

其中，

表示实际标注的目标片段边界的概率分布，

为KL散度计算函数，

为最终计算的定位损失；

步骤8.2：构建内容损失、该部分用以挖掘目标视频片段内部信息，提高模型对视频内容的理解能力：

其中，

为事实标注向量，位于目标视频片段内部的特征被标注为1，否则为0，

为中间帧预测分支所求出的二分类概率，

最终计算的内容损失；

步骤8.3：构建注意力引导损失、该部分用以引导步骤S42中所使用的自注意力强化模块，使有效的特征具有更高的权重；给定由S42中自注意力机制模块产生的注意力权重

和事实标注向量

，设

为注意力损失，该部分损失可以表示为：

步骤8.4：构建综合训练目标函数

最终训练的目标函数由上述三个部分复合而成，如下所示：

其中，

、

为平衡损失的超参因子，

为整个模型的最终损失函数。

本发明的有益效果如下：

1.本发明基于语义，对原始视频进行解耦，分解出多层次的视觉特征流，并在各个视觉特征流内，进行模态内和跨模态的上下文建模，从而保持了基于候选提议方法的优势；

2.本发明采用跨语义的集成机制，将信息交互后的多模态上下文特征集成为细粒度特征，最后利用无提议定位的机制，直接求解出目标视频片段的开始与结束位置；

3.本发明在利用无提议定位方法的边界定位机制的同时，使用了中间特征来辅助视频的内容理解，克服了现有无提议定位机制的缺陷；

4.本发明经测试，有效地提高了时序语言定位的精度，与现有技术相比，在高精度定位上具有较大优势；

5.本发明可用于各种多模态视频理解场合，如网络视频APP、视频播放器、大规模视频内容检索等，可改善用户软件使用体验，提高视频制作、处理、检验等相关领域工作人员的工作效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系，其仅仅为结构或者位置的示意图，其中：

图1是本发明的实现流程图；

图2是本发明跨模态上下文建模模块的示意图；

图3是本发明语义解耦模块的框架示意图；

图4是本发明在Charades-STA及TACoS数据集上的时刻检索效果展示图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

下面结合图1至图4对本发明作详细说明。

实施例1

步骤1：选择训练数据集；

个单词，首先使用GLoVE词嵌入，将各个词汇表示为维度为300的词向量，再通过两层双向门控循环单元，将所得到的前向与后向特征结合起来，得到查询的文本特征；

步骤5：对步骤4中三条特征流内部进行特征交互、得到三个不同的视频上下文特征，并将三个不同的视频上下文特征、分别和步骤3中的文本特征进行融合、得到三个模态上下文；

步骤7：通过估算目标片段的开始与结束的概率分布，求出最大可能为边界的特征，并根据该特征计算出原视频中开始与结束的时序位；增加中间特征预测分支，挖掘目标片段内容；；

步骤8：建目标函数，提供训练准则；

步骤9：采用Adam优化器，采用恒定学习率策略对模型进行训练

本发明的工作原理/工作过程为：先使用预训练卷积神经网络提取原始视频特征，并使用语义解耦模块对原始视频特征进行解耦，得到三条语义分支。使用biGRU提取文本特征。然后通过跨模态上下文建模模块，使每条语义特征流内进行信息交互和多模态融合，得到跨模态的上下文特征。更进一步地，使用跨语义特征集成模块，将得到的层次上下文特征整合为细粒度特征，并使用自注意力机制强化有效特征。最后，使用时序定位模块定位目标片段的开始与结束时间。

实施例2

在实施例1的基础上，进一步地，所述步骤5更详细地包括，

视频上下文特征C_S，通过以下公式得到：

步骤5.2：将单词级文本特征H_q转换为具有较强分辨率的跨模态特化表征，并与到三个不同的视频上下文特征C_S融合、得到三个跨模态上下文；

所述步骤5.2更详细地包括，

计算强度矩阵：

，其中

代表量化后的第j个单词对第

计算过程为：

步骤5.22：在得到更新的文本模态特征后，跨模态特化表征与到三个不同的视频上下文特征C_S融合、得到跨模态上下文建模模块，该视频-文本上下文建模可以由以下公式描述：

最后，收集三条不同特征流的跨模态上下文特征，表示为：

。

给出两个场景案例，如下所示：

第一场景案例：在Charades-STA数据集上开展效果评估工作。该数据集包含6,672个日常生活视频。大多数视频都是室内活动，视频时长平均为29.76秒。每个视频有大约2.4个带注释的目标视频，其平均持续时间为8.2秒。经过统计，该数据集涉及16,128个视频-文本对，分为训练和测试部分，分别为12408对和3720对。在该实施案例中，本发明应用I3D作为原始视频特征提取器以得到视频的RGB特征。同时，为了与现有技术进行公平的比较并评估本发明的稳健性，此应用案例中还使用了在视频表征上能力较弱的VGG特征。基于上述两个特征，本发明在该数据集上与其他方法所比较的结果分别如表1所示：

表1为：Charades-STA数据集上的比较表

第二场景案例：在TACoS数据集上开展效果评估工作。该数据集从MPII烹饪复合活动视频语料库中选出的127个视频组成，其中包含发生在厨房里的不同活动，经由自然语言描述和时间注释丰富后，此数据集具有长视频、稠密事件等特点，是时序语言定位领域一个十分有挑战性的数据集。该数据集上标准拆分由10146、4589和4083个分别用于训练、验证和测试的视频-文本对组成。本方法使用C3D作为原始数据特征提取器。此外，本方法也使用了I3D主干提取特征，以和现有方法进行公平比较。本发明在该数据集上比较的效果如表2所示：

表2为：TACoS数据集上的比较表

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。