CN114549317A

CN114549317A - 一种基于时空超分辨率的视频描述方法及电子设备

Info

Publication number: CN114549317A
Application number: CN202210167971.XA
Authority: CN
Inventors: 王瀚漓; 曹铨辉
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27

Abstract

本发明涉及一种基于时空超分辨率的视频描述方法及电子设备，所述方法基于一视频描述模型实现，包括以下步骤：获取输入视频，对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列；通过所述视频描述模型，对所述视频帧序列进行多模态特征提取和特征编码，动态融合编码后的多模态特征，逐步解码生成视频描述语句；其中，所述视频描述模型训练时，从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧，以重构误差和解码预测误差构建损失函数，实现模型训练。与现有技术相比，本发明具有描述丰富准确、泛化能力强、计算开销低等优点。

Description

一种基于时空超分辨率的视频描述方法及电子设备

技术领域

本发明涉及计算机视觉和自然语言领域，尤其是涉及一种基于时空超分辨率的视频描述方法及电子设备。

背景技术

近些年来，随着5G网络的普及，视频作为一种信息交互的媒介在人们的日常生活中广泛传播开来，同时也带来了各种新的挑战，如大规模视频的自动分类、检索、动作和事件的检测等视频理解任务。而视频描述作为视频理解任务的关键任务之一，旨在对于一段给出的视频片段自动生成一句自然语言描述，在人机交互，婴幼儿教学以及视觉障碍辅助等领域具有非常广阔的应用前景。由于视频场景的丰富性以及复杂的时序性，对视频信息的建模存在一定的难度，相比于静态的图像描述任务，视频描述任务依然存在一定的发展空间。

随着深度学习在计算机科学领域的重大突破，基于深度模型的视频描述方法相继取得优秀成果，如专利CN106845411B公开的一种基于深度学习和概率图模型的视频描述生成方法。现有大部分方法对视频进行帧采样后，压缩至较小尺寸输送给预训练好的卷积神经网络进行特征提取，然后借助于编码器-解码器的结构对提取后的特征处理生成自然语言描述。然而这样的做法忽略了帧采样以及图片压缩过程导致的信息损失，同时如果不进行帧采样，并保持原图的高分辨率进行特征提取会引入大量的计算成本，模型运行速度显著下降。因此，如何设计出一种高效的且捕捉视频丰富视觉特征的视频描述方法，是目前亟待解决的研究问题之一。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种描述丰富准确、泛化能力强、计算开销低的基于时空超分辨率的视频描述方法及电子设备。

本发明的目的可以通过以下技术方案来实现：

一种基于时空超分辨率的视频描述方法，该方法基于一视频描述模型实现，包括以下步骤：

获取输入视频，对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列；

通过所述视频描述模型，对所述视频帧序列进行多模态特征提取和特征编码，动态融合编码后的多模态特征，逐步解码生成视频描述语句；

其中，所述视频描述模型训练时，从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧，以重构误差和解码预测误差构建损失函数，实现模型训练。

进一步地，所述多模态特征包括图像特征、动作特征和局部特征。

通过二维卷积神经网络对每一视频帧进行所述图像特征的提取，利用Transformer编码器对所提取的图像特征的时间关联进行建模，实现特征编码。

进一步地，通过三维卷积神经网络对以每一视频帧为中心的连续16帧片段进行动作特征的提取，利用Transformer编码器对所提取的图动作征的时间关联进行建模，实现特征编码。

进一步地，通过场景图检测网络生成所述局部特征，该局部特征包含物体以及物体之间的语义关联，采用图神经网络对物体以及物体之间的语义联系进行建模，实现特征编码。

进一步地，通过超分辨率解码器融合所述图像特征和局部特征重构原始分辨率的帧，通过超分辨率解码器融合图像特征和动作特征还原丢失的相邻采样帧之间的中间帧。

进一步地，所述超分辨率解码器包括可感知位置的注意力层、前馈网络层和层归一化，所述可感知位置的注意力层包含一个可学习的相对位置矩阵和一个掩膜矩阵。

进一步地，所述逐步解码生成视频描述语句具体为：

在每一个时间步，首先使用词嵌入向量化上一个时间步的单词，然后动态融合多模态特征，将最后全连接层输出的向量通过softmax计算当前时刻的单词概率分布。

进一步地，构建的所述损失函数表示为：

L＝L_lang+λ_sL_ssr+λ_tL_tsr

其中L_lang代表描述解码预测误差的语言损失，L_ssr代表空间维度的超分辨率损失，L_tsr代表时间维度的超分辨率损失，λ_s和λ_t代表用于平衡时间和空间超分辨率损失权重的超参数。

本发明还提供一种电子设备，包括：

一个或多个处理器；

存储器；

被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如上所述基于时空超分辨率的视频描述方法的指令。

与现有技术相比，本发明具有以下有益效果：

一、描述丰富准确：本发明高效地解决了帧采样以及图片压缩过程带来的信息损失，通过时空超分辨率增强各个编码器的表达能力，捕捉关键的物体细节信息并使得帧与帧之间更加连贯，从而丰富了编码器输出的视觉特征。同时，超分辨率解码器可以感知帧间的相对时间位置，并将注意力集中在当前帧周围，以更好地引导编码器的学习。因此，强化后的编码视觉特征让Transformer解码器可以解码生成语义信息更丰富，描述内容更准确的语句。

二、泛化能力强：本发明对于视频帧采样频率和压缩尺寸不再敏感，时空超分辨率引导编码器学习更加丰富而且鲁棒的视觉特征，且避免了高清图像的计算代价，具有较强的普适性和泛化性。

三、计算开销低：本发明无需增加采样频率和保留原始高清分辨率，通过时空超分辨率丰富视觉特征，本发明计算成本低，运行高效。

附图说明

图1为本发明基于时空超分辨率的视频描述方法示意图；

图2为超分辨率解码器及其变体的结构示意图；

图3为本发明生成的视频描述示例。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提出了一种基于时空超分辨率的视频描述方法，如图1所示，该方法基于一视频描述模型实现，包括以下步骤：获取输入视频，对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列；通过所述视频描述模型，对所述视频帧序列进行多模态特征提取和特征编码，动态融合编码后的多模态特征，逐步解码生成视频描述语句。所述视频描述模型训练时，从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧，以重构误差和解码预测误差构建损失函数，实现模型训练。

1)视频采样

本实施例对输入视频进行视频采样，得到包含若干压缩尺寸帧的视频帧序列，该帧序列包含T张大小为224×224的视频帧。

2)特征提取

本实施例所考虑的多模态特征包括图像特征、动作特征和局部特征，具体地，使用二维卷积神经网络对帧序列中的每一帧提取图像特征，使用场景图检测网络对每一帧检测出可能存在的物体使用RoI Align的方式得到局部特征并建立物体之间的语义联系，使用三维卷积神经网络对以每一帧为中心的连续16帧片段提取动作特征。

3)特征编码

对于提取后的图像特征和动作特征，由于它们具有时序性，采用Transformer编码器对其进行时序建模。Transformer编码器一共有4层，每一层包含了自注意力层，前馈网络层以及层归一化，模型维度为512维，输出得到编码后图像特征和动作特征。对于局部特征，由于其自然的图结构，采用图神经网络对物体以及物体之间的语义联系进行建模。图神经网络一共有2层，每一层包含全连接层和ReLU激活函数，模型维度为512维，输出得到编码后的局部特征。

4)损失函数

在进行特征提取时，为了方便和减少计算开销，本发明和大部分现有方法一样采用了帧采样和图像压缩的方式，但在此过程中存在一定程度的信息丢失。因此本发明在训练视频描述模型、优化其模型参数时，通过视频超分辨率步骤，从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧，以提高信息可靠性。

视频超分辨率步骤包括：

(1)空间超分辨率。空间维度上，图像特征因为压缩后丢失了很多细节信息，而局部特征恰好包含了丰富的物体信息和语义信息，因此本发明采用了一个超分辨率解码器基于编码后的图像特征结合局部特征来重构原始分辨率的帧特征，并使用均方误差损失函数来衡量重构特征，其计算方式如下：

其中

代表超分辨率解码器重构的原始分辨率的帧图像特征，

代表未经过图片压缩得到的原始分辨率的图像特征。

(2)时间超分辨率。时间维度上，图像特征因为帧采样过程导致采样帧间的时间关联性减弱，而动作特征恰好捕获了丰富的时间动态变化，因此本发明采用了一个超分辨率解码器基于编码后的图像特征结合动作特征还原丢失的相邻采样帧的中间帧特征。使用均方误差衡量预测帧特征和真实帧特征的差异，其计算方式如下：

其中

代表超分辨率解码器还原的中间帧图像特征，

代表相邻采样帧的中间帧图片提取得到的图像特征。

在还原超分辨率帧的过程中，对于t时刻的超分辨率帧，集中关注以它为中心半径为r的周围帧能有效地获取上下文信息，进一步得到帧间的相对时间位置关系能更好地还原超分辨率帧特征。本发明设计了一个超分辨率解码器，以实现上述视频超分辨率步骤。如图2所示，该超分辨率解码器包含了可感知位置的注意力层以及前馈网络层。假设帧序列的长度为T，相对时间位置的范围在[-T+1,T-1]，对此范围内的相对位置进行参数化即可得到可感知位置矩阵，其第i行第j列的含义是第i帧相对于第j帧的相对位置。另外通过掩膜矩阵限制每一帧只能关注以其为中心最远距离不超过r的范围。得到这两个矩阵后，可感知位置注意力层由下式表示：

其中Q,K,V代表前一层输入线性变换之后的矩阵，d代表模型的维度，b_pa代表可感知位置矩阵，b_mask代表掩膜矩阵。接下来，前馈网络层可由下式表示：

feed-forward(x)＝ReLU(xW₁+b₁)W₂+b₂

其中x代表输入向量，W₁,W₂,b₁,b₂代表可学习的参数。

本发明利用Transformer解码器逐步解码生成语句，初始时刻使用特殊单词<BOS>作为句首，接下来的每一个时间步骤，使用词嵌入向量化上一个时间步骤输出的单词，然后动态融合三个模态的特征F、M、O，将最后全连接层输出的向量通过softmax计算当前时刻的单词概率分布：

P(w_t|w_＜t,F,M,O)＝softmax(W₃H_t+b₃)

其中w_＜t代表t时刻之前生成的单词，W₃和b₃代表可学习参数，H_t代表t时刻解码器输出的隐层状态。假设整个描述有L个单词，使用交叉熵损失函数来衡量解码器预测能力：

进行训练时，总损失函数L由语言损失L_lang、空间超分辨率损失L_ssr和时间超分辨率损失L_tsr三者组成，公式定义如下：

L＝L_lang+λ_sL_ssr+λ_tL_tsr

其中λ_s,λ_t代表用于平衡时间和空间超分辨率损失权重的超参数。

上述视频超分辨率步骤仅在模型训练中执行，而测试阶段或实际应用阶段则会移除，仅保留描述生成的工作线，提高运行效率。

如图3所示为利用本发明构建的视频描述模型进行视频描述的实例，由结果可知，本发明能够获得与人工标注更为接近的视频描述。

为了验证上述方法的性能，设计了以下实验。

本方法在MSVD和MSR-VTT两个基准数据集上进行了实验验证。其中，MSVD数据集包含1970个视频，均采自于YouTube网站包含多种活动，每一个视频有对应大约40句英文描述，本方法将此数据集划分为训练集(1200个视频)，验证集(100个视频)和测试集(670个视频)。MSR-VTT数据集包含10000个视频来自20个主题种类包含音乐，运动，烹饪等等，每一个视频有对应的20句英文描述。本方法将此数据集划分为训练集(6513个视频)，验证集(497个视频)和测试集(2990个视频)。

实验使用的客观评价指标包括BLEU@4，METEOR，ROUGE-L和CIDEr。其中，BLEU@4衡量词块在真实描述和生成描述之间的准确率，而METEOR衡量的不仅仅是准确率，还有召回率，并延展了匹配同义词。ROUGE-L计算真实描述和生成描述之间最长公共子序列的调和平均数。最后，CIDEr是专门为图片描述提出的一种基于共识的评价指标，通过度量生成描述语句和真实描述语句的相似性生成评价指标，这也是和人工评测最为一致的客观评价指标。

为了验证所提出方法的有效性，本发明方法的结果与现有研究中的模型结果进行了对比，结果如表1所示。其中，与本发明方法进行对比的10种方法具体细节如下：(1)TVT：采用Transformer结构动态融合多模态信息；(2)MARN：采用记忆结构来建模同义词之间的兼容性；(3)ORG-TRL：采用外部语料库来引导解码器的单词概率分布生成；(4)ST-Graph：采用时空图来对视频中的物体交互建模；(5)POS-CG：采用了全局的语法词性信息来辅助描述生成；(6)STAT：采用了空间注意力机制；(7)SGN：采用语义分组网络来捕捉最具判别性的短语；(8)RecNet：采用自编码器来重构图像特征；(9)Multi-Task：将视频描述和视频预测以及同义句生成任务共同训练；(10)SibNet：采用物体分支和语义分支分别重构图像特征和语义特征。表中每一列最优的指标值加粗表示，次优指标下划线表示。

表1 本发明方法在MSVD和MSR-VTT数据集上与现有方法的性能对比

从表1可以看出，在MSVD上，本发明提出的方法在三个指标下达得了最佳水平，特别是在CIDEr上显著提高了2.6％。在MSR-VTT上，本发明提出的方法取得了最好的CIDEr分数，提高了0.9％，并在其他指标下取得了次优结果。原因可能是MSR-VTT是一个大规模数据集，它更多地受益于ORG-TRL中使用的外部语料库。而CIDEr是专门为描述任务设计的更符合人类的判断，因此总的来说，本发明相比于大部分现有方法是取得了优异的成绩。

为了评估所提出的时间和空间两种超分辨率的作用，本方法设计了消融实验进行对比，结果如表2所示。

表2 本发明搭配不同种类超分辨率的性能对比

从表2可以看出，无论是使用时间超分辨率或者空间超分辨率，在两个数据集上4种评价指标都超过了基准模型，说明时间或者空间超分辨率都可以有效地提升编码器的学习能力，得到丰富而且连贯的视觉特征。另外，使用时空超分辨率相比于单独使用时间或者空间超分辨率有进一步地提升，说明时间和空间两个维度的超分辨率对于编码器的提升是互补的，时间维度侧重于提升视觉特征的连贯性而空间维度侧重于学习包含丰富细节信息的视觉特征。

为了验证本发明提出的超分辨率解码器的性能，本发明设计了消融实验对比超分辨率解码器及其变体(如图2所示)的性能，其中单模态解码器仅使用单一模态图像特征来还原超分辨率特征，多模态解码器采用了传统的多头注意力层，而本发明的超分辨率解码器不仅可以融合多模态信息，还具备可感知位置的注意力层。性能对比结果如表3所示。

表3 本发明搭配不同种类的超分辨率解码器的性能对比

从表3中可以看出，采用单模态解码器取得了最差的成绩，采用多模态解码器取得了第二名的成绩，而采用本发明提出的超分辨率解码器取得了最佳的成绩，这说明仅使用单一模态信息进行超分辨率解码是不足的，无法充分地引导多模态编码器的编码能力，另一方面加入可感知位置的注意力层能更加高效的聚合周围帧的信息，从而更加有效地引导多模态编码器的编码能力。

实验可以证实，在MSVD和MSR-VTT两个基准数据集上，本方法取得了优异的成绩，能够在大部分指标上性能好于现有方法，并且易于实施，无需额外的计算开销。在目前已知的视频描述生成方法中，本方法具有较强的优势和应用前景。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在另一实施例中提供一种电子设备，包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如上所述基于时空超分辨率的视频描述方法的指令。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于时空超分辨率的视频描述方法，其特征在于，该方法基于一视频描述模型实现，包括以下步骤：

2.根据权利要求1所述的基于时空超分辨率的视频描述方法，其特征在于，所述多模态特征包括图像特征、动作特征和局部特征。

3.根据权利要求2所述的基于时空超分辨率的视频描述方法，其特征在于，通过二维卷积神经网络对每一视频帧进行所述图像特征的提取，利用Transformer编码器对所提取的图像特征的时间关联进行建模，实现特征编码。

4.根据权利要求2所述的基于时空超分辨率的视频描述方法，其特征在于，通过三维卷积神经网络对以每一视频帧为中心的连续16帧片段进行动作特征的提取，利用Transformer编码器对所提取的图动作征的时间关联进行建模，实现特征编码。

5.根据权利要求2所述的基于时空超分辨率的视频描述方法，其特征在于，通过场景图检测网络生成所述局部特征，该局部特征包含物体以及物体之间的语义关联，采用图神经网络对物体以及物体之间的语义联系进行建模，实现特征编码。

6.根据权利要求2所述的基于时空超分辨率的视频描述方法，其特征在于，通过超分辨率解码器融合所述图像特征和局部特征重构原始分辨率的帧，通过超分辨率解码器融合图像特征和动作特征还原丢失的相邻采样帧之间的中间帧。

7.根据权利要求6所述的基于时空超分辨率的视频描述方法，其特征在于，所述超分辨率解码器包括可感知位置的注意力层、前馈网络层和层归一化，所述可感知位置的注意力层包含一个可学习的相对位置矩阵和一个掩膜矩阵。

8.根据权利要求1所述的基于时空超分辨率的视频描述方法，其特征在于，所述逐步解码生成视频描述语句具体为：

9.根据权利要求1所述的基于时空超分辨率的视频描述方法，其特征在于，构建的所述损失函数表示为：

L＝L_lang+λ_sL_ssr+λ_tL_tsr

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

被存储在存储器中的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-9任一所述基于时空超分辨率的视频描述方法的指令。