CN116883886B

CN116883886B - 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置

Info

Publication number: CN116883886B
Application number: CN202310598246.2A
Authority: CN
Inventors: 张晓宇; 张亚如; 石海超
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2024-05-28
Anticipated expiration: 2043-05-25
Also published as: CN116883886A

Abstract

本发明涉及一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置。该方法包括：提取初始的视频特征和初始的文本特征，分别输入自注意力模块以提取自注意力特征；通过互注意力模块提取跨模态语义特征，并利用时序提案生成网络对跨模态语义特征进行高斯建模，得到候选时序片段掩码、背景片段掩码与整个视频的掩码，并分别与初始的视频特征结合，生成前景、背景与整个视频的三种视频特征，然后通过跨模态关联去噪模块得到的鲁棒视频特征表示，并进行文本语义重建与双级对比学习；利用高斯建模参数对目标视频片段进行时序语言定位。本发明能够解决由于弱监督标注的主观性和模糊性造成的跨模态学习的语义鸿沟与关联噪声问题。

Description

一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置

技术领域

本发明属于跨模态理解领域，涉及时序语言定位技术，具体涉及一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置。

背景技术

随着计算、通信和存储技术的发展，基于深度学习的计算机视觉技术取得了长足的进步。现代智能移动设备的普及，使得视频逐渐成为人们日常生活工作中的重要信息媒介。海量的视频数据在承载和传递信息的同时，也增加了人们处理数据的难度和安全隐患，如何有效的对视频数据进行检测和检索成为研究者们的热议话题。然而，现实生活中的视频数据大多长短不一、内容复杂，这给人工标注长视频的方式带来了高昂的时间成本和训练难度。在互联网等平台上，文本数据和其他媒体数据通常是成对出现的，比如图片和相应的描述，视频及相关的人物对话，这使得成对的图像/视频-文本数据采集变得容易。因此，基于视频-文本匹配对的弱监督学习视频内容建模方法被广泛引入到视频内容分析与检测任务中，以减少海量视频标注的负担。弱监督时序语言定位任务致力于检测长视频中和自然语言查询语句相关的目标视频片段，即定位最符合语言描述片段的起止时刻。对于时序语言定位的任务的应用，可以具体到智能视频监控、媒体内容创作、体育赛事分析等场景上。

在研究方法上，弱监督时序语言定位可分为基于多示例学习的方法与基于重建的方法。基于多示例学习的方法将长视频视为具有视频级别注释的多示例的集合，通常以三元组损失函数来预测目标视频片段的时间边边界。然而，这种基于多示例学习的方法严重依赖于随机选择的负样本质量，无法为模型提供足够强的监督信号来进一步改善时序语言定位结果。另一种常用的基于重建的方法旨在能够重建给定语言查询的信息，并将中间结果用于预测视频片段的边界。这一思想最早被引入到弱监督的密集时间描述任务中，并将时间描述和片段生成视为一对对偶任务。近期，基于重建的弱监督时序语言定位任务，由于可以生成高质量的语义内容时序提案，极大提升了时序检测的性能。然而，由于语言标注的模糊性和不准确性，往往使得模型具有跨模态的关联噪声，并且忽视了对视频内部和视频间的语义关系学习，这限制了模型精度的进一步提升。本发明提出的基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法依托于基于重建的方法，并改进了上述两类问题，使得模型能够提高时序特征的表征能力，进而提高定位的准确性。

发明内容

本发明的目的在于针对弱监督学习条件下的一般性问题，提供一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置，旨在解决由于弱监督标注的主观性和模糊性造成的跨模态学习的语义鸿沟与关联噪声问题。具体地，利用双级对比学习策略鼓励模型学习更具判别力的视觉特征表示，并且通过增强视觉特征与时序伪标签的互信息，使用噪声鲁棒损失函数避免模型过于关注伪标签中的错误标注。在这个过程中，仅仅利用视觉-文本匹配对级的标注信息进行模型学习，不使用长视频的时序标签，使用弱监督学习提高在自然语言文本条件下的时序片段定位能力。

实现本发明的思路是，首先利用两种特定的预训练神经网络分别提取视频和语言模态的语义特征，例如利用C3D网络提取长视频的RGB特征、利用Glove模型提取自然语言的文本特征。然后对于每一种模态特征，输入到自注意力模块中，分别得到视频和文本的语义特征表达。紧接着，将这两种特征表达输入到互注意力模块并进行融合的跨模态特征表达。紧接着，将这种融合的特征表达输入到时序提案生成网络来构建基于高斯建模的候选时序片段掩码，并与视频特征结合进一步得到前景、背景与整个视频的特征表达。随后，本发明将获得的视频特征与文本特征一起输入到跨模态关联去噪模块进行视觉特征与时序伪标签的关联去噪，得到鲁棒的视频特征表达。本发明将上述鲁棒特征表达与文本特征表达一起输入到语义文本重建网络，进行文本语义重建和双级对比学习。另一方面，在测试时使用高斯建模生成的模型参数进行时序语言定位，预测准确的视频片段起止位置。

本发明采用的技术方案如下：

一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法，包括以下步骤：

提取视频数据集(长视频)的特征和文本数据集的特征，得到初始的视频特征和初始的文本特征；

将初始的视频特征和初始的文本特征分别输入到自注意力模块，提取具有语义信息的自注意力特征，然后将两种模态的自注意力特征输入到互注意力模块，进行跨模态语义特征交互，即提取跨模态语义特征；

将跨模态语义特征输入到时序提案生成网络，对跨模态语义特征进行高斯建模，得到与文本查询相关的候选时序片段掩码、与文本查询无关的背景片段掩码与整个视频的掩码；

将候选时序片段掩码、背景片段掩码和整个视频的掩码分别与初始的视频特征结合，生成前景、背景与整个视频的三种视频特征，并将三种视频特征与初始的文本特征一起输入到跨模态关联去噪模块，得到对噪声鲁棒的特征表示，即鲁棒视频特征表示；

将每一种鲁棒视频特征表示，与初始的文本特征一起输入到语义文本重建网络，进行文本语义重建与双级对比学习；

利用时序提案生成网络的高斯建模参数，对目标视频片段进行时序语言定位，得到其起止位置。

进一步地，所述初始的视频特征包括RGB特征。

进一步地，所述初始的视频特征采用C3D网络提取。

进一步地，所述初始的文本特征采用Glove网络提取。

进一步地，所述互注意力模块为基于Transformer网络的互注意力模块。

进一步地，所述时序提案生成网络为两级结构的Transformer模型。

进一步地，所述时序提案生成网络构建的候选时序片段掩码由高斯建模得到：

其中，G_c和G_w为跨模态融合得到的两组特征，通过两个单层全连接网络得到；N为视频帧的个数；为第i个视频片段是前景的概率，α为控制高斯建模函数变化的超参数。

进一步地，基于可以得到候选时序片段掩码m^p，进一步可以获得背景片段掩码与整个视频的掩码表达，分别表示为：

其中，m^e和m^h分别为背景片段掩码与整个视频的掩码表达。

进一步地，所述跨模态关联去噪模块所使用的损失函数为基于伪行列式的互信息损失函数，设计如下：

其中R为预测概率与时序标签的联合分布，det(·)为求矩阵行列式函数，为期望函数。

进一步地，所述语义文本重建网络为与所述时序提案生成网络参数共享的Transformer结构的网络。

进一步地，所述语义文本重建网络采用的语义文本重建损失为对每个单词的交叉熵损失。

进一步地，所述双级对比学习为视频内对比学习与视频间对比学习。

进一步地，所述视频内对比学习的损失函数为Margin Ranking损失。

进一步地，所述视频间对比学习的损失函数包含两个正样本对产生的损失函数和一个负样本对产生的损失函数，其中两个正样本对为不同视频的前景特征与前景特征、背景特征与背景特征，负样本对为不同视频的前景特征与背景特征，正样本对的损失函数表示为待选样本间相似度的加权负log函数求和，负样本对的损失函数表示为待选样本间相似度的log变体函数求和。

进一步地，所述视频间对比学习的损失函数表示如下：

其中，为两个正样本对(g_i,g_j),(b_i,b_j)产生的损失函数，分别表示为：

其中，(f_i,f_j)为第i个视频的前景特征与第j个视频的前景特征组成的正样本对，(b_i,b_j)第i个视频的背景特征与第j个视频的背景特征组成的正样本对，其中前景特征是指与文本查询相关的候选时序片段特征，背景特征是指与文本查询无关的背景片段特征，由m^p和m^e分别与视觉特征矩阵进行点积得到；为指示函数，sim(i,j)为cosine相似度度量，n为一个批量内视频的数目，/>为前景i与前景j相似度的负指数幂，/>为背景i与背景j相似度的负指数幂；另外，/>为负样本对产生的损失函数，表示为：

其中，(f_i,b_j)为第i个视频的前景特征与第j个视频的背景特征组成的负样本对。

一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位装置，包括：

特征提取模块，用于对长视频和文本数据集进行特征提取；

自注意力模块，用于对特征提取模块得到的两个模态特征进行自注意力特征的提取，得到更加紧致的特征表达；

互跨注意力模块，用于对两个模态的自注意力特征进行融合交互，得到融合的多模态表征，即跨模态语义特征；

时序提案生成模块，用于利用时序提案生成网络对得到跨模态语义特征进行高斯建模，得到候选时序片段掩码、背景片段掩码与整个视频的掩码表示；

跨模态关联去噪模块，用于对两个模态的关联噪声进行去噪学习，得到更鲁棒的多模态融合表征，即得到鲁棒视频特征表示；

语义文本重建模块，用于对鲁棒视频特征表示与初始的文本特征进行文本语义重建与双级对比学习，即该模块对初始文本特征进行语义重建，得到对语言文本每个单词重建的概率，并进一步利用双级对比学习策略得到更具有判别力的视觉特征表示；

时序语言定位模块，用于根据高斯建模得到的模型参数，对目标视频片段进行时序语言定位，得到其起止位置，即该模块预测每个视频语义相关片段的中心位置与持续时间，进而得到与语言查询相关的视频片段发生的时间间隔，即得到起止位置，提升时序语言定位的平均精度。

利用本发明的方法可以根据语言文本查询在一个长视频中找到最符合语句描述的目标视频片段，与现有技术相比具有以下优点：

1、本发明提出一种基于双级对比学习策略的方法，从而获得跨模态学习中更具有判别力的视觉特征，并以此来辅助视频片段定位，提升视频片段检索的泛化性；

2、本发明使用跨模态关联去噪模块学习鲁棒的跨模态特征表示，减少弱监督学习机制下普遍发生的虚假激活问题，进一步提升模型的定位精度；

3、本发明使用弱监督学习机制学习模型，仅仅使用视频级别的标签进行训练，不使用时序的标签，大大降低了计算复杂度以及时序标注的时间。

附图说明

图1是利用本发明方法进行视频时序语言定位的流程图。其中“数据预处理”是指对视频数据集的视频帧进行统一裁剪操作(比如进行center cropped操作，统一裁剪成224×224的大小)，对文本数据集中的每个语言文本进行分词处理。图1中的实线为训练与测试均要用到的模块，短虚线为训练阶段用到的额外模块，长虚线为测试阶段用到的额外模块。

具体实施方式

下面通过具体实施实例和附图，对本发明做进一步详细说明。

本发明提供的基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法，适用于对长视频进行时序语言定位，该方法的流程如图1所示，其主要步骤包括：首先对视频和文本进行数据预处理，对视频提取RGB帧，对文本进行分词处理，然后分别对视频和文本提取特征，得到RGB特征和文本特征。紧接着，将这两种特征分别输入到各自的自注意力模块中，分别得到视频和文本的语义特征表达。随后，采用互注意力模块对两种模态进行融合，之后将融合的隐变量特征输入到时序提案生成网络构建基于高斯的候选时序片段掩码、背景片段掩码和整个视频的掩码，进而与原始长视频特征结合生成前景、背景与整个视频的特征表达，并结合初始的文本特征输入到跨模态关联去噪模块获得鲁棒的视频特征表示。随后，将产生的三种视频特征表达与文本特征表达一起输入到语义文本重建网络，进行文本语义重建与双级对比学习。另一方面，在测试时使用高斯建模生成的模型参数进行时序语言定位，预测准确的视频片段起止位置。

本发明方法分为训练和测试两部分：在训练阶段，训练自注意力模块、互注意力模块，时序提案生成网络、跨模态关联去噪模块和一个语义文本重建网络；在测试阶段，只需要经过自注意力模块、互注意力模块、时序提案生成网络和时序语言定位模块，就可以得到视频片段的中心值和持续时间，并由此计算出与查询语义相关的视频片段位置。

实施例1：

本实施例提供一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法，以Charades-STA数据集为例，该方法的步骤包括：

1)首先使用C3D提取长视频数据集的RGB特征，使用Glove模型提取文本数据集的特征；

2)将1)提取的RGB视觉特征和文本特征分别输入到自注意力模块，提取紧致的自注意力特征表达；

3)将2)得到的紧致特征表达输入到互注意力模块进行语义交互，得到融合的跨模态特征；

4)将3)到的跨模态特征表达输入到时序提案生成网络，基于高斯建模生成时序片段的视觉掩码表示，并进一步可以获得背景与整个视频的视觉掩码表达；

5)将4)得到的每一种视觉掩码表征，与1)中的RGB视觉特征表达进行点乘获得前景、背景与整个视频的的特征表征，并与文本特征一起输入到跨模态关联去噪模块得到对噪声鲁棒的视觉特征；

6)将5)得到的鲁棒特征表达，与文本特征表达一起输入到语义文本重建网络，进行文本语义重建与双级对比学习；

7)基于4)中得到的高斯建模参数，可以得到目标视频片段的中心位置和目标视频片段发生的时间长度，得到预测视频片段起止位置。

8)为了评估本发明方法的的效果，分别计算本发明与现有技术的时序语言定位评估，R@n,IoU＝m表示的是在返回的前n个结果中，交并比指标(IoU)大于m(∈(0,1])的结果占总体n个返回结果的比例，评估指标的数值越大代表方法的性能越好。得到的时序语言定位的结果如表1所示：

表1.在Charades-STA数据集上的比较表

方法	R@1,IoU＝0.3	R@1,IoU＝0.5	R@1,IoU＝0.7
				SCN	42.46	23.58	9.97
CNM	60.39	35.43	15.45
				本发明方法	63.96	37.14	16.05

表1中，SCN和CNM是对比的方法，这两个方法都是基于重建的弱监督方法。因此可以用本发明的方法进行对比。

根据表1的结果，分别体现了本发明的方法能显著提升视频的时序语言定位结果。

实施例2：

本实施例提供一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位装置，该装置包括：

特征提取模块，用于对视频数据集和文本数据集进行特征提取，得到初始的视频特征和初始的文本特征；

自注意力模块，用于对特征提取模块得到的两个模态的特征进行自注意力特征的提取；

互跨注意力模块，用于对两个模态的自注意力特征进行融合交互，得到跨模态语义特征；

时序提案生成模块，用于对得到跨模态语义特征进行高斯建模，得到候选时序片段掩码、背景片段掩码与整个视频的掩码；

跨模态关联去噪模块，用于对两个模态的关联噪声进行去噪学习，得到鲁棒视频特征表示；

语义文本重建模块，用于对鲁棒视频特征表示与初始的文本特征进行文本语义重建与双级对比学习；

时序语言定位模块，用于利用时序提案生成模块的高斯建模参数，对目标视频片段进行时序语言定位，得到其起止位置。

其中各模块的具体实施过程参见前文对本发明方法的描述。

本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法，其特征在于，包括以下步骤：

提取视频数据集的特征和文本数据集的特征，得到初始的视频特征和初始的文本特征；

将初始的视频特征和初始的文本特征分别输入自注意力模块，提取具有语义信息的自注意力特征，并将自注意力特征输入互注意力模块以提取跨模态语义特征；

利用时序提案生成网络对跨模态语义特征进行高斯建模，得到与文本查询相关的候选时序片段掩码、与文本查询无关的背景片段掩码与整个视频的掩码；

将候选时序片段掩码、背景片段掩码和整个视频的掩码分别与初始的视频特征结合，生成前景、背景与整个视频的三种视频特征，并将三种视频特征与初始的文本特征一起输入到跨模态关联去噪模块，得到鲁棒视频特征表示；

将鲁棒视频特征表示与初始的文本特征一起输入到语义文本重建网络，进行文本语义重建与双级对比学习；

利用时序提案生成网络的高斯建模参数，对目标视频片段进行时序语言定位，得到其起止位置；

所述文本语义重建与双级对比学习，包括：

所述语义文本重建网络采用的语义文本重建损失为对每个单词的交叉熵损失；

所述双级对比学习包括视频内对比学习与视频间对比学习；

所述视频内对比学习的损失函数为Margin Ranking损失；

所述视频间对比学习的损失函数包含两个正样本对产生的损失函数和一个负样本对产生的损失函数，其中两个正样本对为不同视频的前景特征与前景特征、背景特征与背景特征，负样本对为不同视频的前景特征与背景特征，正样本对的损失函数表示为待选样本间相似度的加权负log函数求和，负样本对的损失函数表示为待选样本间相似度的log变体函数求和。

2.根据权利要求1所述的方法，其特征在于，所述初始的视频特征包括RGB特征；所述初始的视频特征采用C3D网络提取；所述初始的文本特征采用Glove网络提取。

3.根据权利要求1所述的方法，其特征在于，所述互注意力模块为基于Transformer网络的互注意力模块；所述时序提案生成网络为两级结构的Transformer模型；所述语义文本重建网络为与所述时序提案生成网络参数共享的Transformer结构的网络。

4.根据权利要求1所述的方法，其特征在于，所述候选时序片段掩码、背景片段掩码和整个视频的掩码采用以下步骤得到：

利用高斯建模得到候选时序片段掩码m^p；

利用候选时序片段掩码m^p，获得背景片段掩码与整个视频的掩码，分别表示为：

其中，m^e和m^h分别为背景片段掩码与整个视频的掩码。

5.根据权利要求1所述的方法，其特征在于，所述跨模态关联去噪模块使用的损失函数为基于伪行列式的互信息损失函数。

6.根据权利要求1所述的方法，其特征在于，所述对目标视频片段进行时序语言定位，是预测每个视频语义相关片段的中心位置与持续时间，进而得到与语言查询相关的视频片段的起止位置。

7.一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位装置，其特征在于，包括：

时序提案生成模块，用于利用时序提案生成网络对得到跨模态语义特征进行高斯建模，得到候选时序片段掩码、背景片段掩码与整个视频的掩码；

时序语言定位模块，用于利用时序提案生成模块的高斯建模参数，对目标视频片段进行时序语言定位，得到其起止位置；

所述文本语义重建与双级对比学习，包括：

所述双级对比学习包括视频内对比学习与视频间对比学习；

所述视频内对比学习的损失函数为Margin Ranking损失；

8.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～6中任一项所述方法的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～6中任一项所述的方法。