CN117372936B

CN117372936B - 基于多模态细粒度对齐网络的视频描述方法与系统

Info

Publication number: CN117372936B
Application number: CN202311668813.3A
Authority: CN
Inventors: 姜文晖; 刘林鑫; 程一波; 徐天聪; 方玉明; 左一帆
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-03-22
Anticipated expiration: 2043-12-07
Also published as: CN117372936A

Abstract

本发明提出一种基于多模态细粒度对齐网络的视频描述方法与系统，该方法首先获取在视频中实体的时空细粒度标注和在视频中动作的时空细粒度标注，再获取时空特征、动作特征和文本特征，通过鼓励注意力机制将注意力集中在视频不同帧的不同空间细粒度区域，以促进实体的对齐，并动态地将动词与相关的主语和相应的上下文关联起来，以保留动作预测中的细粒度空间和时间细节，并且通过软对齐监督损失，可以使注意力机制学习在标注区域内分配更多的注意力权重，且高置信度的标注区域比低置信度标注区域的视觉权重更大。本发明通过显示地建立实体、动作与视频帧中的视觉线索的细粒度关联，以提高视频描述模型的准确性。

Description

基于多模态细粒度对齐网络的视频描述方法与系统

技术领域

本发明属于计算机视觉与视频处理技术领域，特别涉及一种基于多模态细粒度对齐网络的视频描述方法与系统。

背景技术

视频描述的目标是使用自然语言句子来描述视频中的视觉内容。这是一项具有挑战性的任务，因为它要求对对象及其相互作用有深刻的理解。现有的视频描述方法通常使用注意力机制，该机制旨在将正确的单词与正确的视觉区域相关联。尽管这些模型取得了显著的成绩，但之前的研究表明，注意力机制无法准确地将生成的单词与有意义的视觉区域联系起来，从而降低了模型的可解释性。

为了解决这一问题，最新的研究采用了“区域-短语”注释来训练模型，并设计了多种目标函数来引导注意力集中在适当的视觉区域。这种方法在静态图像中取得了显著的改进。然而，将这种对齐方法直接应用于视频描述则面临着巨大的挑战，原因如下：

（1）在视频中，与视频的描述中的实体相对应的相关视觉区域可以跨越多个帧，然而，现有的视频描述数据集仅存在视频数据及其对应的全局内容描述，缺少文本逐词与视频内容的细粒度标注，无法直接利用细粒度对齐来引导注意力集中在正确的视觉区域。

（2）与强调名词预测的图像描述不同，视频描述的特点是对象的复杂动作和交互。然而，由于缺乏明确的动词视觉区域注释，动作对齐仍然具有挑战性。一些方法将动词与全局运动特征联系起来，但这可能导致大量的空间细节缺失。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于多模态细粒度对齐网络的视频描述方法与系统，能够更好地生成通顺且易于理解的句子，以完整地描述视频内容。

一种基于多模态细粒度对齐网络的视频描述方法，所述方法包括如下步骤：

步骤1、通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体，形成实体在关键帧的空间标注；

步骤2、通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注，得到在视频中实体的时空细粒度标注；

步骤3、根据在视频中实体的时空细粒度标注，采用动作标签生成算法生成在视频中动作的时空细粒度标注；

步骤4、通过预训练的视觉编码器提取视频的时空特征和动作特征，通过预训练的文本编码器提取文本特征；

步骤5、将文本特征分别与时空特征和动作特征进行跨模态注意力操作，得到对应的注意力权重矩阵，通过时空细粒度标注生成对应的注意力监督矩阵，以指导模型的注意力权重分配；

步骤6、利用注意力监督矩阵作为监督信息，采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域，细粒度对齐视觉信息与文本信息，得到重聚焦后的时空特征和动作特征；

步骤7、将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述。

一种基于多模态细粒度对齐网络的视频描述系统，所述系统应用如上述的一种基于多模态细粒度对齐网络的视频描述方法，所述系统包括：

多模态细粒度标签生成模块，用于：

通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体，形成实体在关键帧的空间标注；

通过实体标签动态传播算法在实体标注（空间标注）的帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注，得到在视频中实体的时空细粒度标注；

根据在视频中实体的时空细粒度标注，采用动作标签生成算法生成在视频中动作的时空细粒度标注；

特征提取模块，用于：

通过预训练的视觉编码器提取视频的时空特征和动作特征，通过预训练的文本编码器提取文本特征；

视频对齐模块，用于：

将文本特征分别与时空特征和动作特征进行跨模态注意力操作，得到对应的注意力权重矩阵，通过时空细粒度标注生成对应的注意力监督矩阵，以指导模型的注意力权重分配；

利用注意力监督矩阵作为监督信息，采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域，细粒度对齐视觉信息与文本信息，得到重聚焦后的时空特征和动作特征；

将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述。

相较于现有技术，本发明的有益效果如下：

1、本发明鼓励注意力机制将注意力集中在视频不同帧的不同空间细粒度区域，以促进实体的对齐。并且动态地将动词与相关的主语和相应的上下文关联起来，以保留动作预测中的细粒度空间和时间细节。

2、本发明将实体对齐和动作对齐作为一个统一的任务，通过软对齐监督的指导，简化了网络结构并提高了训练效率。

本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的一种基于多模态细粒度对齐网络的视频描述方法的流程图；

图2为本发明提出的一种基于多模态细粒度对齐网络的视频描述系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

请参阅图1，本发明实施例提供了一种基于多模态细粒度对齐网络的视频描述方法，所述方法包括如下步骤：

上述方案的具体步骤如下：

通过面向开放词汇下的目标检测模型，检测视频每一帧中出现的与文本描述对应的实体位置和置信度/>；

设定置信度阈值，选取稀疏的部分关键帧中且置信度大于阈值/>的实体，并生成实体在关键帧的空间标注。

在本实施例中，目标检测模型采用GLIPv2模型，通过GLIPv2模型进行目标检测。

由于实体标注缺少大量的实体动态信息，本发明采用目标跟踪器模型，并设计了实体标签动态传播算法，即通过目标跟踪器模型对已经检测出的实体在视频的相邻帧中进行跟踪生成对应的实体的伪边界框以实现实体标签动态传播，表达式如下：

；

其中，表示通过目标检测而检测出的文本描述中对应的实体位置，/>表示跟踪出的第f帧的伪边界框标注，/>表示通过目标跟踪器模型进行跟踪检测操作。通过实体标签动态传播建立实体与视频帧中的视觉线索的关联。

上述方案的具体步骤如下：

采用目标跟踪器模型对已经检测出的实体在视频的相邻帧中进行跟踪，以在相邻视频帧中生成伪边界框标注；每个伪边界框标注的置信度为/>，其中，/>；

由于目标跟踪器可能会生成具有错误位置和误报的边界框，因此，基于置信度的阈值过滤潜在的错误边界框，最终在视频中形成实体的时空细粒度标注。

在本实施例中，目标跟踪器模型采用ToMP模型，通过ToMP模型进行目标跟踪。

为建立已生成的实体的时空细粒度标注与动词之间的关联，设计了一种动作标签生成算法，表达式如下：

；

其中，表示并集操作，/>表示外界矩形操作，/>表示第f帧的第i个实体边界框标注，/>表示第f帧的第i+1个实体边界框标注，/>和/>为第f帧与动词相关的实体的边界框标注。

通过计算与动词相关的实体区域在视频帧中的外接矩形框，自动生成与实体相关的动词在视频中的时空标注，建立已生成的实体细粒度标注与动词之间的关联；

上述方案的具体步骤如下：

针对视频帧中与动词相关的实体及其相应的边界框，生成覆盖这些框的最紧密的外接矩形，以外接矩形作为该动词的标注，记为外接矩形标注/>；

通过聚合动词相关实体的置信度形成外接矩形标注的置信度得分，外接矩形标注的置信度得分计算过程存在如下关系式：

；

其中，表示第f帧的第i个边界框标注的置信度，/>表示外接矩形标注，/>表示外接矩形标注的置信度得分，/>表示每帧中实体以及对应边界框的数量；

视频中的动作和文本描述中的动词相对应，由外接矩形标注和其置信度得分组成该动作的时空细粒度标注。

经过以上步骤，对于文本描述中的每个名词和动词都在视频中生成了对应的时空细粒度标注，可用于后续指导视频和文本的细粒度对齐。

上述方案的具体步骤如下：

从每个视频中均匀采样帧；

利用预训练的视觉编码器从每一帧产生具有/>个特征的视觉特征/>，其中，；

为了获得视频的时空特征，本发明将所有帧的视觉特征连接起来，得到视频的时空特征/>，其中，/>，/>表示从整个视频中提取的时空特征总数，/>；

利用预训练的视觉编码器依次从采样帧的每相邻两帧中提取具有个特征的动作特征/>，其中/>，将所有帧的动作特征/>连接起来，得到视频的动作特征/>，其中，/> 表示从整个视频中提取的动作特征总数，；

利用预训练的文本编码器提取文本特征，其中，/>，/>表示文本长度，/>表示特征维度，/>表示实数域。

在本实施例中，视觉编码器采用Text4Vis模型，通过Text4Vis模型提取视频的时空特征，视觉编码器采用Unimatch模型，通过Unimatch模型提取视频的光流作为动作特征，文本编码器采用BERT模型，通过BERT模型提取文本描述的文本特征。

上述方案的具体步骤如下：

以文本特征作为查询矩阵，时空特征/>作为键矩阵进行跨模态注意力操作，得到视觉注意力权重分布，视觉注意力权重分布的计算过程存在如下关系式：

；

其中，，/>表示关于视觉注意力的两个不同可学习的参数，/>表示键矩阵的维度，/>表示归一化操作，/>表示视觉注意力权重，/>表示转置操作，/>表示查询标识符，/>表示键标识符；

以文本特征作为查询矩阵，动作特征/>作为键矩阵进行跨模态注意力操作，得到动作注意力权重分布，动作注意力权重分布计算过程存如下关系式：

；

其中，，/>表示关于动作注意力的两个不同可学习的参数，/>表示动作注意力权重；

基于实体的时空细粒度标注，在视觉特征上构造视觉注意力监督矩阵，并将视觉注意力监督矩阵/>平铺为视觉向量/>，以显式指导模型的视觉注意力权重分配，其中，，/>，/>，/>，/>表示第f帧的第N个视觉注意力监督权重，/>表示平铺后的视觉向量/>的第F个视觉注意力监督权重，/>表示第f帧的视觉注意力监督矩阵。

通过上述可知的是，具有与视觉特征相同的空间分辨率，构造过程如下所示：

；

其中，表示第f帧的第i个视觉注意力监督权重。

基于动作的时空细粒度标注，在动作特征上构造动作注意力监督矩阵，并将动作注意力监督矩阵平铺成动作向量，以显式指导模型的动作注意力权重分配，其中，，/>表示动作向量/>中第/>个动作注意力监督权重。

进一步的，软对齐监督损失存在如下关系式：

；

其中，表示软对齐监督损失，/>表示取对数，/>表示第j个视觉向量，/>表示第j个视觉注意力权重，/>表示第j个动作向量，/>表示第j个动作注意力权重。通过显式的注意力监督，以鼓励注意力机制将注意力聚焦在生成描述中名词和动词相应的特征区域上，为视频描述提供细粒度视觉信息；

并且通过软对齐监督损失，可以使注意力机制学习在标注区域内分配更多的注意力权重，且高置信度的标注区域比低置信度标注区域的视觉权重更大；

从上述关系式中可以看出，较大的和/>将引导分配更大的/>和/>，从而指导注意力权重分配在重要的时空区域上。软对齐监督损失使跨模态注意力机制选择性地关注于不同词性相关的视觉区域，实现视频内容与文本的细粒度对齐。

请参阅图2，本发明还提供一种基于多模态细粒度对齐网络的视频描述系统，其特征在于，所述系统应用如上述的一种基于多模态细粒度对齐网络的视频描述方法，所述系统包括：

多模态细粒度标签生成模块，用于：

特征提取模块，用于：

视频对齐模块，用于：

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多模态细粒度对齐网络的视频描述方法，其特征在于，所述方法包括如下步骤：

步骤7、将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述；

在所述步骤2中，通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注，得到在视频中实体的时空细粒度标注的具体方法包括如下步骤：

采用目标跟踪器模型对已经检测出的实体在视频的相邻帧中进行跟踪，以在相邻视频帧中生成伪边界框标注；每个伪边界框标注的置信度为/>，其中，/>，伪边界框标注的生成过程存在如下关系式：

；

其中，表示通过目标检测而检测出的文本描述中对应的实体位置，/>表示跟踪出的第f帧的对应的伪边界框标注，/>表示通过目标跟踪器模型进行跟踪检测操作；

基于置信度的阈值过滤潜在的错误边界框，最终在视频中形成实体的时空细粒度标注；

在所述步骤3中，根据在视频中实体的时空细粒度标注，采用动作标签生成算法生成在视频中动作的时空细粒度标注的具体方法包括如下步骤：

针对视频帧中与动词相关的实体及其相应的边界框，生成覆盖这些框的最紧密的外接矩形，以外接矩形作为该动词的标注，记为外接矩形标注/>，外接矩形标注计算过程存在如下关系式：

；

其中，表示并集操作，/>表示外界矩形操作，/>表示第f帧的第i个实体边界框标注，/>表示第f帧的第i+1个实体边界框标注，/>和/>为第f帧与动词相关的实体的边界框标注；

；

其中，表示第f帧的第i个实体边界框标注的置信度，/>表示外接矩形标注，/>表示外接矩形标注的置信度得分，/>表示每帧中实体以及对应边界框的数量；

视频中的动作和文本描述中的动词相对应，由外接矩形标注和其置信度得分组成该动作的时空细粒度标注；

在所述步骤6中，软对齐监督损失存在如下关系式：

；

其中，表示软对齐监督损失，/>表示取对数，/>表示第j个视觉向量，/>表示第j个视觉注意力权重，/>表示第j个动作向量，/>表示第j个动作注意力权重。

2.根据权利要求1所述的基于多模态细粒度对齐网络的视频描述方法，其特征在于，在所述步骤1中，通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体，形成实体在关键帧的空间标注的具体方法包括如下步骤：

通过面向开放词汇下的目标检测模型检测视频每一帧中出现的与文本描述对应的实体位置和置信度/>；

3.根据权利要求2所述的基于多模态细粒度对齐网络的视频描述方法，其特征在于，在所述步骤4中，通过预训练的视觉编码器提取视频的时空特征和动作特征，通过预训练的文本编码器提取文本特征的方法具体包括如下步骤：

从每个视频中均匀采样帧；

将所有帧的视觉特征连接起来，得到视频的时空特征/>，其中，/>，/>表示从整个视频中提取的时空特征总数，/>；

利用预训练的视觉编码器依次从采样帧的每相邻两帧中提取具有个特征的动作特征，其中/>，将所有帧的动作特征/>连接起来，得到视频的动作特征，其中，/>，/>表示从整个视频中提取的动作特征总数，/>；

4.根据权利要求3所述的基于多模态细粒度对齐网络的视频描述方法，其特征在于，在所述步骤5中，通过时空细粒度标注生成对应的注意力监督矩阵，为视频描述提供细粒度视觉信息，以显示引导注意力权重的学习的方法具体包括如下步骤：

；

其中，，/>表示关于视觉注意力的两个不同可学习的参数，/>为键矩阵的维度，表示归一化操作，/>表示视觉注意力权重，/>表示转置操作，/>表示查询标识符，/>表示键标识符；

；

基于视频数据的时空细粒度标注，在视觉特征上构造视觉注意力监督矩阵，并将视觉注意力监督矩阵平铺为视觉向量，以显式引导视觉注意力权重学习；

基于视频数据的时空细粒度标注，在动作特征上构造动作注意力监督矩阵，并将动作注意力监督矩阵平铺成动作向量，以显式引导动作注意力权重学习。

5.一种基于多模态细粒度对齐网络的视频描述系统，其特征在于，所述系统应用如权利要求1至4任意一项所述的一种基于多模态细粒度对齐网络的视频描述方法，所述系统包括：

多模态细粒度标签生成模块，用于：

通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注，得到在视频中实体的时空细粒度标注；

特征提取模块，用于：

视频对齐模块，用于：