CN114155477B

CN114155477B - 一种基于平均教师模型的半监督视频段落定位方法

Info

Publication number: CN114155477B
Application number: CN202210116942.0A
Authority: CN
Inventors: 徐行; 蒋寻; 沈复民; 申恒涛
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2022-04-29
Anticipated expiration: 2042-02-08
Also published as: CN114155477A

Abstract

本发明公开了一种基于平均教师模型的半监督视频段落定位方法，涉及多模态视频理解中的跨模态内容检索领域，解决现有视频段落定位的技术问题，通过结合对比学习和段落级别的上下文建模，本发明较好地实现了视频‑文本的粗粒度模态对齐和多事件的上下文建模，同时利用平均教师模型，实现了半监督条件下的视频段落定位，有效降低了对标注数据的依赖；本发明可用于各种多模态视频理解场合，如网络视频APP、智慧安防系统、大规模视频内容检索等，可改善用户软件使用体验，提高视频、安防、社会治理等相关领域工作人员的工作效率。

Description

一种基于平均教师模型的半监督视频段落定位方法

技术领域

本发明涉及多模态视频理解中的跨模态内容检索领域，具体涉及一种基于平均教师模型的半监督视频段落定位方法。

背景技术

随着近年来互联网的快速发展，多媒体数据呈指数级增长，使得许多多模态技术应用向前迈进了一大步。在这一趋势的推动下，学术界和工业界都对多模态视频理解提出了新的需求，这在过去十年中吸引了大量的研究人员。时序语言定位是多模态视频理解中最具挑战性的任务之一，其旨在根据给定的查询文本信息，从未经裁剪过的长视频中进行细粒度的视频片段检索，给出查询语句描述的事件在视频中的时间戳。此项技术存在较广泛的运用场景：通过在智能安防、大数据管理、多媒体信息分析和人机交互等领域部署时序语言定位技术，可以有效改善用户使用体验，提高工作效率。例如，在大媒体时代的社会治理环境下，基于时序语言定位技术，我们可以实现细粒度的跨模态视频内容检索，提高现有安防的智能水平，把人力从繁琐的视频审核和查找中解放出来。

传统的时序语言定位方法，大都专注于视频句子定位，即给定一个未经裁剪的长视频，其由多个事件组成，根据一个仅描述单个事件的句子从该视频中检索出目标片段，以“一对多”的方式完成片段定位。这种方法存在着较多的局限性：第一，它仅利用视频进行事件级别的上下文建模，而忽略了文本模态的上下文建模，造成模型对视频内容理解的不充分；第二，面对反复出现的相同或相近事件，事件级别的文本上下文缺失会造成事件片段的错误检索。针对以上问题，人们提出了视频段落定位方法。其以“多对多”的方式来处理时序语言定位任务。具体来说，在视频段落定位任务中，视频模态的输入不发生改变，但给定的描述是包含多个事件描述的多句段落而不是单个句子。与单个句子的查询输入相比，按时间顺序排列的多个句子组成的段落包含更多的时间信息，因此蕴含更多的时间信息，有利于模态的对齐，同时带来了更多的事件级别的上下文信息。

现有的视频段落定位方法都先为段落中的每个句子生成候选提议框，然后结合各自的句子挖掘提议框之间的时序联系与上下文关系，以求出每个句子描述的片段所在位置。然而，现存的方法存在三个问题。首先，现有方法依赖于文本段落带来的时间信息，而从文本模态的角度没能地利用上下文信息。第二，对于段落输入，现有方法只关注候选框与句子之间的匹配而忽略了视频与段落之间的匹配，这可能导致跨模态融合的错位。第三，与单句标注相比，段落级别的标注数据更昂贵且难以生成，现有技术需要使用时间标记数据进行训练，这给这项任务带来了沉重的成本。

发明内容

本发明的目的在于：为了解决现有视频段落定位的技术问题，本发明提供了一种基于平均教师模型的半监督视频段落定位方法。通过结合对比学习和段落级别的上下文建模，本发明较好地实现了视频-文本的粗粒度模态对齐和多事件的上下文建模，同时利用平均教师模型，实现了半监督条件下的视频段落定位，有效降低了对标注数据的依赖。

本发明采用的技术方案如下：

一种基于平均教师模型的半监督视频段落定位方法，包括以下步骤：

步骤1：选择训练数据集；将数据集划分为标注数据和未标注数据；

步骤2：加载预训练的3D卷积神经网络的模型参数，对步骤1中的数据集提取原始视频特征；

步骤3：对于步骤1中数据集、给定自然语言查询段落Q，其具有l ^S个句子，具有l ^W个单词；使用GloVe编码，将各个单词表示为维度为300的词向量、作为查询文本编码；

步骤4：提取一组或多组原始视频特征和查询文本编码、作为原始数据输入到教师模型；复制提取的提取一组或多组原始视频特征和查询文本编码，并使用多模态数据扰动模块向复制的原始视频特征和查询文本编码、分别引入噪声，作为扰动数据再输入到学生模型；

所述学生模型和教师模型的结构完全一致，包含一个多层Transformer的编码器和多层Transformer的解码器；

其首先使用双向门控循环单元BiGRU对输入的查询文本编码进行处理，得到句子级文本特征和单词级文本特征，之后使用编码器对原始视频特征和单词级文本特征进行融合得到多模态融合特征，接着将句子级文本特征和编码器得到的多模态融合特征输入到解码器中，预测出查询段落中每个句子所描述事件在视频中的归一化位置；

步骤5：学生模型和教师模型根据输入的扰动数据、原始数据，分别预测段落中描述的多个视频片段在给定视频中的归一化位置；预测完成后，同时启动相互独立的步骤6、步骤7和步骤8；

步骤6：根据教师模型和学生模型的输出，计算一致性损失；

步骤7：根据学生模型中对比编码器的输出，计算视频-文本的比较损失；

步骤8：根据学生模型的最终输出，计算监督信息损失；

步骤9：步骤6、步骤7和步骤8计算完成后，将一致性损失、对比损失、监督损失进行加权求和，作为最终的训练目标，提供训练准则；

步骤10：采用Adam优化器，并使用恒定学习率策略对模型进行训练学生模型；教师模型由学生模型使用指数滑动平均策略进行更新。

本发明所述教师模型及学生模型解释如下：

教师模型是一个具有强学习能力的神经网络模型，承担着学习强分辨、高鲁棒的辅助模型的任务；学生模型是不同于教师模型的另一个神经网络模型，其需要从带噪声的多模态数据学习出最终参与实际预测的最终模型，同时向教师模型学习，完成知识迁移的过程，提升模型的泛化能力。在实际部署阶段，教师模型不参与预测，仅使用学生模型作为最终部署模型。在模型结构上，本发明中所述学生模型和教师模型的结构设计完全一致，包含一个多层Transformer的编码器和多层Transformer的解码器；学生模型采用Adam优化器进行优化，教师模型基于学生模型，采用指数移动平均法优化；学生模型和教师模型之间计算一致性损失函数以促使学生模型向教师模型学习。

作为一种优选的技术方案，还包括验证方式：

步骤11：使用训练完成的基于平均教师模型的半监督视频段落定位模型中的学生模型作为测评模型，对视频和段落文本对进行视频多片段检索，以验证模型效果。

作为一种优选的技术方案，所述步骤4更详细地包括，

假设经3D卷积网络提取后的原始视频特征F_V，GloVe编码后的查询文本编码为E_W，多模态特征扰动模块由以下公式表示：

F'_V=RandomShift(F_V,μ)

E'_W=RandomMask(E_W,λ)

其中，F'_V为扰动后的扰动视频特征、E'_W为扰动后的扰动文本编码，RandomShift(·)为随机时序移位函数，即在时序通道上，随机选取一部分特征进行错位迁移，μ为通道数比例；RandomMask(·)为随机掩码函数，随机将一部分单词置为空值，λ是每个单词的置空概率超参数。

作为一种优选的技术方案，所述步骤5更详细地包括，学生模型的预测过程包括步骤5.1至步骤5.3；

步骤5.1：输入的扰动数据包括扰动文本编码E'_W，通过映射函数对扰动文本编码E'_W的每个单词编码进行处理，得到单词级文本特征F_W，同时将段落拆分为多个句子，使用两层双向门控循环单元对每个句子进行独立的编码，并取每个句子的最后一个单词的编码结果作为对应的句子级文本特征F_s；

步骤5.2：使用由多层transformer构成的编码器分别对单词级文本特征F_W和扰动视频特征F'_V进行编码，并将编码后的两个特征进行融合，得到多模态融合特征F_men：

步骤5.3：将句子级文本特征F_s输入到由多层transformer构成的解码器中，对编码后的多模态融合特征F_men进行解码，并使用多层感知机预测每个事件的归一化位置：

T=MLP(Ψ(F_men，F_s))

其中F_s为句子级文本特征，Ψ(·)为多层transformer构成的解码器，MLP(·)为多层感知机，T为查询段落描述的每个事件在对应视频中的归一化位置；

步骤5.4：教师模型使用未经过多模态数据扰动处理的原始数据作为输入，按照步骤5.1、步骤5.2、步骤5.3进行计算，得到预测每个事件的归一化位置。

作为一种优选的技术方案，所述步骤6更详细地包括，

使用步骤5中教师模型和学生模型的预测结果计算一致性损失

：

其中，N为总事件数，Γ(·)、Γ'(·)分别代指学生模型和教师模型，X、X'分别代指输入的扰动数据和原特数据。

作为一种优选的技术方案，所述步骤7更详细地包括，

使用步骤5中学生模型在编码器中得到的单词级文本特征F_W和扰动视频特征F'_V计算对比损失

：

其中，

分别为构造的视频三元组和文本三元组，用以计算对比损失；

依次为正样本视频特征、正样本单词级文本特征、负样本单词级文本特征、负样本视频特征；

为三元损失函数。

作为一种优选的技术方案，所述步骤8更详细地包括，

使用步骤5中的学生模型对带标注部分数据的预测结果进行监督学习，计算监督损失

：

其中，

分别指第i个事件的归一化预测结果和实际标注，

分别指第i个事件的在解码器中产生的注意力矩阵和二值化帧级标注；

指G-IOU损失函数，

指注意力引导损失函数。

作为一种优选的技术方案，所述步骤9更详细地包括，

将一致性损失、对比损失、监督损失进行加权求和，作为最终的训练目标

：

其中，α、β、γ分别为平衡损失函数的第一超参数、第二超参数和第三超参数。

作为一种优选的技术方案，所述步骤10更详细地包括，

仅对学生模型使用带标注数据进行监督学习，教师模型采用指数移动平均方式进行更新，具体的：

Γ'_t=τΓ'_t-1+（1-τ）Γ_t

其中，Γ'_t代表第t次迭代的教师模型，Γ_t代表第t次迭代的学生模型，τ为滑动因子。

本发明的有益效果如下：

1.本发明挖掘了文本模态中句子之间的上下文的特征，通过句子级的解码器，对多个事件进行时序定位，与传统的视频语句定位相比，基于段落查询的定位方式有效地提高了视频片段检索的精确度；

2.本发明在段落和完整视频的粗粒度级别上，采用了对比学习使得语义相近的文本和视频对齐，提高多模态融合的质量；

3.本发明在保持视频段落定位质量的同时，采用了半监督学习的方法，有效的降低了对标注数据的依赖程度；

4.本发明经测试，有效地提高了时序语言定位的精度，与现有技术相比，在多事件定位上具有较大优势。同时，本方法降低了对细粒度时间标注数据的依赖，有效地降低了技术部署的成本；

5.本发明可用于各种多模态视频理解场合，如网络视频APP、智慧安防系统、大规模视频内容检索等，可改善用户软件使用体验，提高视频、安防、社会治理等相关领域工作人员的工作效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系，其仅仅为结构或者位置的示意图，其中：

图1是本发明的实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

下面结合图1，对本发明作详细说明。

实施例1

步骤6：根据教师模型和学生模型的输出，计算一致性损失；

步骤8：根据学生模型的最终输出，计算监督信息损失；

步骤10：采用Adam优化器，并使用恒定学习率策略对模型进行训练学生模型；教师模型由学生模型使用指数滑动平均策略进行更新

本发明的工作原理/工作过程为：1个单词的长度为1、l ^W个单词的长度为l ^W，先使用预训练卷积神经网络提取原始视频特征，并使用多模态数据扰动模块对标注数据和未标注数据进行扰动。学生模型使用扰动后的特征、作为扰动数据输入进行预测，教师使用原特征、作为原始数据输入进行预测。二者之间计算一致性损失，学生模型额外计算监督损失和对比损失。教师R模型采用指数移动平均方法基于学生模型进行更新，学生模型采用梯度下降方法更新。

在两种模型中，使用biGRU提取单词级和句子级两种文本特征，然后使用多Transformer结构的编码器对数据进行两个模型的数据进行编码，更进一步地，使用句子级特征作为查询输入，用解码器进行解码，并通过多层感知机进行预测每个事件的归一化时间戳，并根据视频时常映射为具体时间。

实施例2

一种基于平均教师模型的半监督视频段落定位方法，还包括验证方式：步骤11：使用训练完成的基于平均教师模型的半监督视频段落定位模型中的学生模型作为测评模型，对视频和段落文本对进行视频多片段检索，以验证模型效果。

作为优选地方案，所述步骤4更详细地包括，

F'_V=RandomShift(F_V,μ)

E'_W=RandomMask(E_W,λ)

其中，F'_V为扰动后的扰动视频特征、E'_W为扰动后的扰动文本编码，RandomShift(·)为随机时序移位函数，即在时序通道上，随机选取一部分的特征进行错位迁移，μ为通道数比例；RandomMask(·)为随机掩码函数，随机将一部分单词置为空值，λ是每个单词的置空概率超参数。

作为优选地方案，所述步骤5更详细地包括，学生模型的预测过程包括步骤5.1至步骤5.3；

以单个单词和单个句子为例：

F^j _w=φ _t(E'_W ^j)

Fⁱ _s=BiGRU(F_W ⁱ _k，h ⁱ _k-1)

其中，E'_W ^j代表段落中第j个单词的词嵌入向量、F^j _w、代表段落中第j个单词的单词级特征，F_W ⁱ _k为第i个句子中k个单词的单词级特征，BiGRU(·)为双向门控循环单元函数，h ⁱk-1为编码第i个句子时，k-1步的隐藏状态；

最终，得到单词级文本特征

和句子级文本特征

；

T=MLP(Ψ(F_men，F_s))

作为优选地方案，所述步骤6更详细地包括，

使用步骤5中教师模型和学生模型的预测结果计算一致性损失

：

作为优选地方案，所述步骤7更详细地包括，

：

其中，

为三元损失函数。

作为优选地方案，所述步骤8更详细地包括，

：

其中，

分别指第i个事件的归一化预测结果和实际标注，

指G-IOU损失函数，

指注意力引导损失函数。

作为优选地方案，所述步骤9更详细地包括，

：

作为优选地方案，所述步骤10更详细地包括，

Γ'_t=τΓ'_t-1+（1-τ）Γ_t

给出三个场景案例，如下所示：

第一场景案例：在Charades-CD-OOD数据集上开展效果评估工作。该数据集包含6,672个日常生活视频。大多数视频都是室内活动，视频时长平均为29.76秒。每个视频有大约2.4个带注释的目标视频，其平均持续时间为8.2秒。经过统计，该数据集涉及16,128个视频-文本对，分为训练和测试部分，分别为12408对和3720对。在该实施案例中，本发明应用C3D作为原始视频特征提取器以得到视频的RGB特征。基于上述特征，本发明在该数据集上与其他方法所比较的结果分别如表1所示；

表1在Charades-CD-OOD数据集上的比较表

第二场景案例：在Activity Net-Caption数据集上开展效果评估工作。该数据是时序语言定位任务中最大的数据集，包含大约2万个开放域视频。平均每个视频包含3.65个查询，每个查询平均有13.48个词。数据集被拆分为训练集，验证集1和验证集2，分别含有10009/37421、4917/17505和4885/17031个视频/句子的，本发明在验证集1上进行验证，在验证集2上用于测试。本发明与其他现有方法对比的结果如表2所示，

表2在Activity Net-Caption数据集上的比较表

第三场景实施例：在标注数据不全的情况下开展效果评估工作。本发明在第一场景实施例和第二场景实施例的两个数据集上开展半监督效果评估。在Charades-CD-OOD（表中记作Charades）上随机丢弃70%的数据标注，仅保留30%的监督信息；在Activity Net-Caption（表中记作Activity）上随机丢弃90%的数据标注，仅保留30%的监督信息。在相同训练数据的情况下，本发明与其他现有方法进行对比，结果如表3所示：

表3在半监督条件下的比较表

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于平均教师模型的半监督视频段落定位方法，其特征在于，包括以下步骤：

步骤3：对于步骤1中数据集、给定自然语言查询段落Q，其具有l^S个句子，具有l^W个单词；使用GloVe编码，将各个单词表示为维度为300的词向量、作为查询文本编码；

步骤4：提取一组或多组原始视频特征和查询文本编码、作为原始数据输入到教师模型；复制提取的一组或多组原始视频特征和查询文本编码，并使用多模态数据扰动模块向复制的原始视频特征和查询文本编码、分别引入噪声，作为扰动数据再输入到学生模型；所述学生模型和教师模型的结构完全一致，包含一个多层Transformer的编码器和多层Transformer的解码器；

步骤6：根据教师模型和学生模型的输出，计算一致性损失；

步骤8：根据学生模型的最终输出，计算监督信息损失；

步骤10：采用Adam优化器，并使用恒定学习率策略对模型进行训练学生模型；教师模型由学生模型使用指数滑动平均策略进行更新；

所述步骤5更详细地包括，学生模型的预测过程包括步骤5.1至步骤5.3；