CN116129321B

CN116129321B - 基于长序动态主客体视觉关系建模的视频描述生成方法

Info

Publication number: CN116129321B
Application number: CN202310129840.7A
Authority: CN
Inventors: 李博文; 张瞫; 邓甘琳
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-10-27
Anticipated expiration: 2043-02-17
Also published as: CN116129321A

Abstract

一种基于长序动态主客体视觉关系建模的视频描述生成方法，属于视频描述技术领域。本发明针对现有视频理解任务中，只能对视频中实体级信息进行探测，无法体现实体之间的关系和交互的问题。包括：获得采样片段；分别获得采样片段的主语分类结果、谓语分类结果、宾语分类结果和每个分类结果的置信分数；按置信分数从高到低，将前五个主语分类结果、谓语分类结果、宾语分类结果和对应的置信分数采用关系连接模块进行组合，获得5×5×5＝125个关系三元组，每个关系三元组的置信分数为三个组成成分置信分数相乘的结果；基于预定模板结合关系三元组的置信分数生成待描述视频的描述语句。本发明方法用于视频描述。

Description

基于长序动态主客体视觉关系建模的视频描述生成方法

技术领域

本发明涉及基于长序动态主客体视觉关系建模的视频描述生成方法，属于视频描述技术领域。

背景技术

近年来，随着计算机设备与技术、通信设备与技术以及多媒体技术等的快速发展，抖音、快手、小红书等自媒体视频应用及QQ、微信等社交应用的兴起，网络上的视频数据爆炸式增长。几乎每个人手机里都有视频软件，视频内容消费开始成为主流，直播平台的兴起也导致视频的数量大幅度增加。每天互联网上都会产生非常多的视频，但这些视频通常没有标注或者标注不完善，人们想要从视频数据库中快速检索出一个自己想要的视频是非常困难的。如果人工标注视频，金钱和时间成本十分高昂并且难以实现。如果能让计算机自动的理解视频的内容，那么将会极大提高视频处理的效率，提高视频检索的速度与质量。

在计算机视觉领域已经有了很多有关于视频理解的任务，比如视频物体探测，视频动作识别等。但这两种任务只限于对视频的实体级信息进行探测，并没有对视频实体之间的关系和各种交互进行研究。

为了将视频理解技术提高到一个更全面的水平，最近的研究工作又提出了视频视觉关系检测这一更具挑战性的任务。视频视觉关系检测(Video Visual RelationDetection,VidVRD)的目标是检测出视频中对象之间的三元组关系，具体形式为<subject,predicate,object>。其中subject表示主语，predicate表示谓语，object表示宾语。这不仅涉及到视频的物体探测，还需要对关系三元组的三个组件进行正确的分类以及对应视频片段的连接，具有非常大的挑战性。

视频描述生成任务致力于根据输入的视频生成视频的描述性句子，是自然语言处理领域和计算机视觉领域共同关注的问题。视频视觉关系探测任务致力于探测视频中存在的多种关系。目前尚没有一种很好的方法，能够对输入视频进行检测以获得准确的三元组视觉关系，从而实现对视频的描述。

发明内容

针对现有视频理解任务中，只能对视频中实体级信息进行探测，无法体现实体之间的关系和交互的问题，本发明提供一种基于长序动态主客体视觉关系建模的视频描述生成方法。

本发明的一种基于长序动态主客体视觉关系建模的视频描述生成方法，包括，

步骤一：对待描述视频进行采样，获得采样片段；

步骤二：采用视频主语分类模型、视频谓语分类模型和视频宾语分类模型分别对所有的采样片段进行处理：

视频主语分类模型通过软性注意力机制在采样片段上选择主语有效信息，计算所有主语有效信息的注意力分布，根据注意力分布计算主语有效信息的加权平均值；再根据加权平均值确定主语分类结果和每个分类结果的置信分数；

视频谓语分类模型通过软性注意力机制在采样片段上选择谓语有效信息，计算所有谓语有效信息的注意力分布，根据注意力分布计算谓语有效信息的加权平均值；再根据加权平均值确定谓语分类结果和每个分类结果的置信分数；

视频宾语分类模型通过软性注意力机制在采样片段上选择宾语有效信息，计算所有宾语有效信息的注意力分布，根据注意力分布计算宾语有效信息的加权平均值；再根据加权平均值确定宾语分类结果和每个分类结果的置信分数；

步骤三：按置信分数从高到低，将前五个主语分类结果、谓语分类结果、宾语分类结果和对应的置信分数采用关系连接模块进行组合，获得5×5×5＝125个关系三元组，每个关系三元组的置信分数为三个组成成分置信分数相乘的结果；

步骤四：基于预定模板结合关系三元组的置信分数生成待描述视频的描述语句。

根据本发明的基于长序动态主客体视觉关系建模的视频描述生成方法，待描述视频的视图比例为4×3；由待描述视频均匀采样获得四个采样片段；每个采样片段通过3个大小为224像素×224像素的视图表现视频内容的变化。

根据本发明的基于长序动态主客体视觉关系建模的视频描述生成方法，所述主语分类结果和宾语分类结果从属于视频对象语义类别集；谓语分类结果从属于谓语语义类别集。

根据本发明的基于长序动态主客体视觉关系建模的视频描述生成方法，所述预定模板的获得方法为：

对MSVD数据集的视频描述语句进行关系提取，获得主语、谓语和宾语，形成关系三元组；将提取的主语和宾语形成视频对象语义类别集，将提取的谓语形成谓语语义类别集；

将由MSVD数据集形成的关系三元组作为预定模板。

根据本发明的基于长序动态主客体视觉关系建模的视频描述生成方法，所述视频主语分类模型、视频谓语分类模型和视频主语分类模型的网络结构相同；分别依次包括：规范化层LN、基于3D移动窗口的多头自注意力模块3D SW-MSA、规范化层LN和前馈网络FFN；

所述前馈网络FFN包括两层多层感知器，两层多层感知器之间为非线性激活函数GELU。

根据本发明的基于长序动态主客体视觉关系建模的视频描述生成方法，所述主语和宾语对应视频中的物体标签；谓语包括动作谓词、位置谓词和比较谓词。

根据本发明的基于长序动态主客体视觉关系建模的视频描述生成方法，所述软性注意力机制基于transformer网络检测采样片段中对象的边界框，作为主语有效信息和宾语有效信息。

根据本发明的基于长序动态主客体视觉关系建模的视频描述生成方法，对MSVD数据集的视频描述语句采用python的spacy和nltk库进行关系提取。

根据本发明的基于长序动态主客体视觉关系建模的视频描述生成方法，视频主语分类模型、视频谓语分类模型和视频宾语分类模型均基于transformer网络模型建立。

本发明的有益效果：本发明方法可在嵌入式操作系统LiteOS-A中采用视频视觉关系探测任务的模型来完成视频描述生成任务。它对视频描述生成任务的数据集进行关系提取后，生成对应关系三元组标注，然后搭建分类模型训练并预测对应的关系三元组，按照模板生成关系三元组对应的视频描述性句子。在对视频中实体级信息进行探测的基础上，体现了实体之间的关系和交互。

本发明方法采用善于捕捉长距离特征的transformer网络来构建视频视觉关系探测模型，利用生成的主客体关系实现视频描述生成任务，将其输出的主客体关系用于生成视频的描述句子。构建的视频视觉关系探测模型可应用在用于视频描述生成任务的数据集MSVD上。本发明方法致力于在嵌入式操作系统LiteOS-A中采用视频视觉关系探测任务的模型来完成视频描述生成任务。

附图说明

图1是本发明所述基于长序动态主客体视觉关系建模的视频描述生成方法的流程图；

图2是对视频中的主语和宾语进行标注并进行视频描述的示意图；

图3是本发明方法中视频视觉关系检测任务示例图；

图4是两个连续的VideoSwin Transformer的组成结构图；图中z^l表示本轮迭代输入特征,表示根据上一轮迭代输入特征获得的本轮迭代输出特征；z^l-1表示上一轮迭代输入特征，z^l+1表示下一轮迭代输入特征，/>表示根据本轮迭代输入特征获得的下一轮迭代输出特征；

图5是本发明方法中获得关系三元组的流程框图；图中t表示时间。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方式一、结合图1所示，本发明提供了一种基于长序动态主客体视觉关系建模的视频描述生成方法，包括，

步骤一：对待描述视频进行采样，获得采样片段；

作为示例，待描述视频的视图比例为4×3；由待描述视频均匀采样获得四个采样片段；每个采样片段通过3个大小为224像素×224像素的视图表现视频内容的变化。

进一步，所述主语分类结果和宾语分类结果从属于视频对象语义类别集；谓语分类结果从属于谓语语义类别集。

再进一步，所述预定模板的获得方法为：

将由MSVD数据集形成的关系三元组作为预定模板。

作为示例，所述视频主语分类模型、视频谓语分类模型和视频主语分类模型的网络结构相同；分别依次包括：规范化层LN、基于3D移动窗口的多头自注意力模块3D SW-MSA、规范化层LN和前馈网络FFN；

本实施方式中，所述主语和宾语对应视频中的物体标签；谓语包括动作谓词、位置谓词和比较谓词。

再进一步，所述软性注意力机制基于transformer网络检测采样片段中对象的边界框，作为主语有效信息和宾语有效信息。

对于视频视觉关系检测任务，首先定义如下：

给一段未剪辑的任意时间长度的视频V，任务目标是从视频中检测出三元组形式的视觉关系<subject、predicate、object>∈O×P×O以及对应的物体轨迹。O表示视频对象语义类别集，P表示谓词语义类别集。subject和object为主语和宾语，对应视频中的物体标签，predicate为谓语，通常包括动作谓词，位置谓词，比较谓词等。每个检测的轨迹是由预训练的视频物体检测模型检测到的对象边界框序列，例如采用Faster-RCNN检测。任务示例如图2所示，视频中的主语和宾语对象分别用方框进行标注，视频下方为对应的三元组关系。通常一个视频中会存在很多个关系，甚至一帧图像里也会存在很多个关系，比如位置关系，动作关系等等。

本发明方法的实现可以分为三个阶段，(a)物体轨迹检测(b)物体短期关系预测(c)贪婪关系关联三个阶段。如图3所示，第一个阶段进行视频中物体的探测和轨迹跟踪任务。给定一个视频，将其分解为长度为L的片段，其中每个片段有L/2个重叠帧(例如L＝30)，并在每个片段中生成相应的实体对象轨迹。这涉及到两个任务，即视频视觉物体探测任务和视频视觉物体跟踪任务，视频物体探测任务可以有很多种神经网络实现，比如Faster-RCNN，MEGA等，而视频物体轨迹追踪任务可以由deepSORT网络完成。

第二个阶段为关系的预测阶段，根据第一阶段实体的探测和追踪结果，进行分解视频片段的关系预测。该阶段输出是视频的视觉关系三元组和对应的置信分数。第三个阶段对预测的短期视频片段的关系结果进行连接，最后生成每个视频的关系预测结果和他们对应的物体轨迹，视频片段开始帧数和结束帧数，以及每个关系对应的置信分数。

作为示例，对MSVD数据集的视频描述语句采用python的spacy和nltk库进行关系提取。

作为示例，视频主语分类模型、视频谓语分类模型和视频宾语分类模型均基于transformer网络模型建立。

视频描述生成任务：

视频描述生成任务旨在根据给定视频的视觉信息自动生成自然语言描述，该任务需要动态的考虑视频的空间特征和动态的时间特征，是一个非常具有挑战性的任务。该任务的关键问题有两个：如何提取具有区分性的特征来表示视频内容，以及如何利用现有的视觉特征来匹配相应的字幕语料库。该任务的最终目标是跨越视觉和语言之间的鸿沟。

本实施方式中视觉关系检测模型的构建：

由于MSVD数据集的标注为视频的描述句子，需要首先构建MSVD数据集的视觉关系标注，即对MSVD数据集的描述句子进行关系提取。之后对于模型构建，由于本实施方式只需要视频的关系三元组，不需要与相应物体追踪片段相连接，在构建时可以对这一方面进行简化。

数据集关系提取：

由MSVD视频的标注示例可以看出描述句子不仅仅包含一个关系，不能简单的对句子进行关系提取。所以本实施方式中采用python的spacy和nltk库进行关系抽取，提取MSVD数据集中的主语，谓语，宾语，形成对应的关系三元组。

可首先对文本进行文本清理和停用词的去除工作，之后将每个视频的所有描述句子组合成一个文档进行提取，再将提取后的关系三元组形成json文件。之后将出现次数最多的关系三元组作为视频的关系三元组标注，并形成json文件。

之后根据形成MSVD的关系三元组标注形成分别的subject,predicate,object分类标注文件，便于后续模型的输入。

模型搭建：

1)注意力机制：

在深度学习的任务中，模型往往需要接收和计算大量的特征数据，但在一些特定的时刻，只有一小部分数据是重要的，这就是注意力机制出现的原因。注意力机制可以说是一种机制，或者说是一种方法，它可以看作一种仿生，即机器对人类在阅读时的注意力行为的一种模拟，因为人脑在进行阅读和听说的时候会自动忽略低可能，低价值的信息，或者说会优先获取认为有用的信息，而将次要的内容直接舍弃。在神经网络中注意力模块通常是一个额外的模块，为输入的数据分配不同的权重，即教会计算机有选择性的“遗忘”。本实施方式中采用比较常见的基于输入项的软性注意力机制。

基于输入项的软性注意力机制是指在处理输入信息的时候，对输入所有项进行线性加权合并再输入到相应的神经网络中进行计算，一般采用软注意力机制来处理神经网络问题，注意力值的计算可以分为两步：第一阶段根据具体场景选择计算机制计算注意力分布，第二阶段根据第一阶段计算的注意力分布信息进行计算，可以将其计算整理成所有元素权重之和为1的概率分布，也可以利用softmax函数进行计算，来突出重要元素。

定义注意力变量z∈[1,N]来表示被选择信息的索引位置，其中N表示信息总索引数量，在给定query(查询，机器学习提炼出来的一种属性特征)和输入信息X的情况下，选择第i个输入信息的概率α_i为：

式中p(z＝i|X,q)表示选择第i个输入信息的概率，q表示查询query，s(x_i,q)为注意力打分函数，有加性注意力，点积(乘法)注意力等形式；x_i表示选择的第i个输入信息，加性注意力是最经典的注意力机制，它使用一个隐藏的前馈网络来计算注意力，点积注意力形式则是Transformer采用的方式，它可以利用矩阵高效地实现。

对于键值对形式(key-value)的输入信息，即输入信息表示为(K,V)＝[(k₁,v₁),…,(k_N,v_N)]，计算公式可以如下表示：

式中K表示从原始输入提取出来的特征，V表示从原始输入中进行映射，在另外一个特征维度上来表征输入，k_N表示第N个输入信息提取的特征，v_N表示对第N个输入信息进行映射，在另外一个特征维度上来表征输入。

2)数据集关系提取：

对于单个关系组成成分的分类模型，采用的VideoSwinTransformer分类模型。该模型是用于视频识别的纯transformer模型，它利用了视频固有的时空位置特性，即在时空距离上彼此更近的像素更有可能相互关联。由于这一特性，完全的时空自我注意机制可以通过局部计算的自我注意机制来近似，并且同时显著的降低了计算量和模型大小。该模型通过对Swin Transformer的时空适应来实现。Swin Transformer最近被引入作为图像理解通用视觉主干。Swin Transformer结合了空间局部性、层次性和平移不变性的感应偏差。VideoSwin Transformer严格遵循了原有的Swin Transformer结构，并将局部注意力计算的范围从空间域扩展到了时空域，由于局部注意力是在非重叠的窗口上计算的，因此也将原有的SwinTranformer的移位窗口机制重新设置为处理时空输入。

图4展示了两个连续的Video Swin Transformer块的组成结构，它将标准的Transformer层中的多头自注意机制(MSA)模块替换为基于3D移动窗口的多头自注意力模块(3DW-MSA，3D SW-MSA)，并保持其他组件不变。具体来说，Video Swin Transformer块包括基于3D移位窗口的MSA模块(3D W-MSA)，然后是前馈网络FFN，具体为两层的MLP(多层感知器)，中间是非线性的GELU。在每个MSA模块和FFN之间使用规范化层(LayerNormalization，LN)，并且在每个模块后使用剩余连接。

由于VideoSwin Transformer模型改变自Swin Transformer，所以该模型可以利用在大规模数据集上的强大的预训练模型进行初始化，与原始模型对比，该模型只有两个构建模块具有不同形状，即第一阶段的线性嵌入层和Video Swin Transformer模块中的相对位置偏差。由于在视频中输入token被扩展到了时间维度，线性嵌入层的大小从原始的48×C变换为96×C，该模型直接将预训练模型中的权重复制两次，将整个矩阵乘以0.5，来保持输出的均值和方差不变。使用AdamW在训练过程中进行优化，使用30个epoch，使用余弦衰减学习率调度器和2.5个epoch的线性预热，由于主干是根据预训练模型进行初始化的，而头部是随机初始化的，发现将主干的学习率乘以0.1可以提高性能。具体来说，将ImageNet的预训练模型和随机初始化头部的初始学习率分别设置为3e-5和3e-4。对于所有的模型变体，都使用2的时间步长和224×224的空间大小，每个视频中采样32帧片段，得到16×56×56的输入3D块。对于测试问题，采用4×3视图，其中视频在时间维度上均匀采样4个片段，对于每个片段，较短的空间维度被缩放为224个像素，取3个大小为224×224的部分覆盖较长的空间轴，最终得分计算为所有视图的平均得分。

3)视觉关系检测模型：

采用三个相同的VideoSwin Transformer模型分别作为视频主语分类模型、视频谓语分类模型和视频宾语分类模型分类关系三元组的subject，predicate和object。简单的模型结构如图5所示。频分别输入三个分类模型，三个模型将对应的分类结果及置信分数输出，由于三者相乘的笛卡尔积过于庞大，选取每个模型预测的前五个分类结果和对应的置信分数输入到Relation Combination模块(关系连接模块)中进行组合，将取三个关系组成的成分的笛卡尔积作为输出结果，置信分数为对应的三个关系组成成分的置信分数相乘，即每个视频会生成5×5×5＝125个关系三元组，其概率P_relation可计算如下：

P_relation＝P(s|V)P(p|V)P(o|V)， (3)

其中P(s|V)，P(p|V),P(o|V)分别为主语，谓语，宾语相对于输入视频V的条件概率。

经过Relation Combination模块后即可生成对应的关系三元组和置信分数。根据生成的关系三元组按照相应的模板即可生成对应的视频描述句子。

作为示例，采用base版本的Video Swin Transformer的网络(C＝128,layernumbers(图层编号)＝{2,2,18,2})进行模型训练，训练100个epoch结束，其Accuracy@1(迭代一次准确率),Accuracy@5(迭代五次准确率)结果如下表1所示：

表1

Classes为关系组件类别总数，subject、predicate、object的类别数依次增加，可以看出分类结果随着类别总数的增加而降低。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其它所述实施例中。

Claims

1.一种基于长序动态主客体视觉关系建模的视频描述生成方法，其特征在于包括，

步骤一：对待描述视频进行采样，获得采样片段；

步骤三：按置信分数从高到低，将前五个主语分类结果、谓语分类结果、宾语分类结果和对应的置信分数采用关系连接模块进行组合，获得5×5×5 = 125个关系三元组，每个关系三元组的置信分数为三个组成成分置信分数相乘的结果；

步骤四：基于预定模板结合关系三元组的置信分数生成待描述视频的描述语句；

待描述视频的视图比例为4×3；由待描述视频均匀采样获得四个采样片段；每个采样片段通过3个大小为224像素×224像素的视图表现视频内容的变化；

所述预定模板的获得方法为：

将由MSVD数据集形成的关系三元组作为预定模板；

所述视频主语分类模型、视频谓语分类模型和视频主语分类模型的网络结构相同；分别依次包括：规范化层LN、基于3D移动窗口的多头自注意力模块3D SW-MSA、规范化层LN和前馈网络FFN；

2.根据权利要求1所述的基于长序动态主客体视觉关系建模的视频描述生成方法，其特征在于，所述主语分类结果和宾语分类结果从属于视频对象语义类别集；谓语分类结果从属于谓语语义类别集。

3.根据权利要求2所述的基于长序动态主客体视觉关系建模的视频描述生成方法，

所述主语和宾语对应视频中的物体标签；谓语包括动作谓词、位置谓词和比较谓词。

4.根据权利要求3所述的基于长序动态主客体视觉关系建模的视频描述生成方法，

所述软性注意力机制基于transformer网络检测采样片段中对象的边界框，作为主语有效信息和宾语有效信息。

5.根据权利要求4所述的基于长序动态主客体视觉关系建模的视频描述生成方法，

对MSVD数据集的视频描述语句采用python的spacy和nltk库进行关系提取。

6.根据权利要求5所述的基于长序动态主客体视觉关系建模的视频描述生成方法，

视频主语分类模型、视频谓语分类模型和视频宾语分类模型均基于transformer网络模型建立。