CN114627162A

CN114627162A - 一种基于视频上下文信息融合的多模态密集视频描述方法

Info

Publication number: CN114627162A
Application number: CN202210347546.9A
Authority: CN
Inventors: 俞俊; 南瑞环; 朱素果; 范建平
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-06-14

Abstract

本发明公开了一种基于视频上下文信息融合的多模态密集视频描述方法，用于处理密集视频描述任务。本发明步骤如下：步骤(1)、数据预处理，提取视频多模态数据特征；步骤(2)、建立多模态密集视频描述网络，并引入时间‑语义关系模块；步骤(3)、模型训练，优化描述生成器，得到模型在视频上的文本描述；模型通过采用稀疏采样和引入时间‑语义关系模块，解决了视频描述任务中普遍存在的视频信息冗余以及视频事件与事件之间关系的引入问题，从而减少了模型的计算量，提高了生成句子的连贯性与一致性。在数据集上的实验表明，通过使用这两种方法，能够有效提升模型生成文本描述的效果与性能。

Description

一种基于视频上下文信息融合的多模态密集视频描述方法

技术领域

本发明提到了一种基于视频上下文信息融合的多模态神经网络，用于处理密集视频描述任务。

背景技术

随着视频行业的不断发展，视频已经成为了人们日常生活和工作中不可或缺的东西，从视频中获取知识，是人们获取相关经验的重要途经，但是看完一段长视频是很费时间的，因此为了压缩视频信息，人们提出了视频描述这一任务。视频描述旨在为视频内容生成自然语言描述，近年来，图像描述的发展让人们开始思考对一段视频进行描述生成，但是对于视频来说，它不像图像那样仅包含静态的空间信息，视频除了空间信息以外，还包含了很多时序信息，文本信息，同时还有声音信息，这也就表示一段视频所包含的信息比图像要多的多，要求提取的特征也更多，所需要的算力也更加庞大，因此对一段视频生成准确的描述是一个重大的挑战。随着视频描述方向技术的不断发展，也开始衍生出了一些新的方向，其中密集视频描述就是近年来所出现的视频描述中比较热门的方向之一。

密集视频描述是一项具有挑战性的任务，它的主要任务是为未剪辑视频中的所有事件生成文本描述，不同于视频描述仅为一段视频输出一句话，密集视频描述的任务在于对一段视频中所出现的每个事件都进行描述，从而为一段视频生成多段描述，使得生成的描述对视频中所出现的对象以及事件描述的更加具体准确。因此密集视频描述可以拆分成两个子问题，即检测和描述事件，之前的大多数方法都是通过为这两个子问题建立两个模型来分别解决这两个问题，这样做的好处是可以防止语言描述对事件建议的直接影响，但是这样做往往容易得到一个次优的解，即不能同时达到事件建议模型和描述模型所生成结果的最优化，因此后来就有人提出了将这两个任务整合为一个端到端的模型来进行模型训练，共同优化事件建议和描述任务，这两种方法各有各的好处。

传统的密集视频描述模型广泛使用递归神经网络，这种方式容易受长程依赖影响。自Transformer被提出以来，基于注意力的模型正在成为密集视频描述模型的新方式。同时随着基于注意力模型的进一步发展，如何充分利用视频的丰富多模态信息以及视频的上下文信息是目前研究人员的主要研究方向。

近几年来，出现了一些优秀的算法，它们在原有视频特征的基础上很好地引入了视频的多模态信息以及同一视频中事件与事件之间的上下文关系信息，如MDVC、SYSU、HCN等，使得在生成文本描述的准确度上有了很大的提升。

然而，现有的模型仍然存在着一些缺陷与不足。首先，当前的模型无法很好地处理视频帧的冗余问题。对于一段视频来说，其中包含了大量的特征信息，但是也包含了很多冗余信息，这些冗余信息的存在不但会提升模型计算的复杂度，造成所需算力增加，甚至还会为模型引入噪声，导致了模型无法正确的关注到所需要关注的视频特征，从而大大地降低了模型生成文本描述的准确性。

其次，另外一个问题就是视频中事件与事件上下文关系如何引入问题。视频的上下文信息是视频中的重要信息，它包含了当前事件与周围事件之间时序和语义的关系，一个准确的上下文信息可以对当前事件文本描述起到决定性的作用。

发明内容

本发明针对现有技术的不足，提出了一种基于视频上下文信息融合的多模态密集视频描述方法。通过使用稀疏采样和加入时间语义关系模块来解决视频帧冗余问题以及视频事件上下文信息引入的问题。通过这两种方法的结合，模型可以从大量的视频特征中更加准确地关注到视频中的特定部分及其上下文信息，从而生成专注于视频中各部分特征的更加准确的描述，提高模型的性能以及生成文本描述的质量。

一种基于视频上下文信息融合的多模态密集视频描述方法，包括如下步骤：

步骤(1)、数据预处理，提取视频多模态数据特征。

对于多模态密集视频描述的数据集，我们主要使用ActivityNet Captions数据集，它由从20k个Youtube视频中提取的100k个包含时间定位的事件及其对应的句子组成，数据集按照50/25/25％的比例被分别用于训练、验证和测试。数据集的验证集采用了两个不同的描述器进行文本描述，这种方式在一定的程度上增加了描述的多样性。由于ActivityNet Captions数据集的test集未公开ground truth，因此任务在最终测试时仍采用验证集作为测试集来测试模型最终训练效果。模型采用了多模态的方法，即同时使用视频特征与音频特征，因此无法使用整个数据集，因为其中某些视频是没有音频信息的，故训练过程中仅使用了数据集中适合实验的91％的视频，并也将不可用的视频从验证集中进行省略。

对于自然语言文本描述特征，使用Glove词向量分布表示模型进行处理，按照“词-词”矩阵进行分解从而得到词表示，将文本描述映射为词向量，并得到对应的“词-数字”转换字典，用于之后模型处理。

步骤(2)、建立多模态密集视频描述网络(Bi-modal Transformer)，并引入时间语义关系模块(Temporal-Semantic Relation Module)；

密集视频描述分为两个任务，即视频事件描述与视频事件定位，其中，事件定位任务我们直接采用一个现成的DBG网络来检测每个视频中的事件建议，因此主要关注点和改进点在视频事件描述模型BMT-TSR上，BMT-TSR主要用于视频、音频特征的编码，文本描述与视频、音频的多模态融合，以及最终文本描述的生成。

在BMT-TSR中，主要通过使用Transformer的self-attention和multiheadattention模块来实现各模态之间的编码与融合。视频视觉特征在送入模型时，首先要经过稀疏采样，从视频帧中按照时间顺序随机选取出固定帧再送入self-attention进行编码。之后，模型引入了时间语义关系模块(Temporal-Semantic Relation Module)，该模块主要通过捕获视频中事件与事件之间时序和语义关系，从而得到当前事件的上下文信息，之后模型将上下文信息与视觉特征进行融合，进一步增强了事件级表示，使得模型能够关注视频的整体场景，并有助于捕捉事件之间因果依赖、并行发生等复杂关系，从而提高生成句子的逻辑性与连贯性。

步骤(3)、模型训练，优化描述生成器，得到模型在视频Gound truth proposals和Learned proposals上的文本描述；

首先，我们使用Ground truth proposals对模型进行训练，使得模型能够达到较好的性能。再使用DBG网络生成的Learned proposals作为模型的输入，得到模型在Learnedproposals上的结果，从而验证模型的文本描述效果。

进一步的，步骤(1)所述的数据为视频数据集，包含来自ActivityNet的20k个视频，ActivityNet Captions建立在ActivityNet v1.3之上，其中包括来自现实生活的20k个YouTube未修剪视频。这些视频平均时长为120秒。大多数视频包含超过3个带注释的事件，对应的开始/结束时间和人工编写的句子，平均包含13.5个单词。训练/验证/测试集中的视频数量分别为10024/4926/5044。来自测试集的基本事实注释被保留用于竞争。模型首先与验证集上的基准模型进行比较，再从测试服务器返回最终结果。

进一步的，所述的音频特征和视觉特征在训练前预先计算，具体的VGGish网络在AudioSet上进行预先训练，用于提取视频的音频特征，I3D网络在Kinetics数据集上进行了预先训练，用于提取视频的视觉特征。

VGGish模型处理0.96秒长的音频片段，这些音频片段被表示为大小为96×64的对数梅尔比例谱图，这些谱图通过短时傅立叶变换获得；STFT使用25毫秒汉恩窗口，对16kHz单声道音轨应用15毫秒步长；VGGish的预分类层为每个谱图输出128维的嵌入；因此，视频数据集中第i个视频的音轨由长度为

的128维个特征序列表示，堆栈中的每个特征代表0.96秒的原始音轨；

I3D输入以25fps速度提取的，大小为224×224的64RGB和64光流帧；其中，使用PWCNet来提取光流帧；首先，调整两组帧的大小，使min(Height,Width)＝256；然后，将大小为224×224的中心区域裁剪出来；之后，两组视频帧都通过相应的I3D输出1024-d表示的RGB帧和光流帧；最后将输出的RGB帧和光流帧相加，得到最终为每个视频帧所生成的1024-d表示，因此第i个视频的视觉轨迹由长度为

的1024-d特征序列表示，其中每个特征平均跨越原始视频的2.56秒。

进一步的，文本描述的单词通过在Common Crawl数据集上预先训练的全局向量表示；预先训练的模型将全局向量表示映射到维度为D_c的查找表中；每个文本描述的单词都用维度为D_c的描述词向量表示。

进一步的，步骤(2)具体实现如下：

2-1采用MDVC作为基准模型，基于Transformer的多模态神经网络来提高视觉特征的利用率，生成更加准确的视频描述；模型同时输入三个模态的数据，即描述词向量、视觉特征、音频特征；采用预训练好的Glove、I3D和VGGish网络独立地进行不同特征的提取，维度大小分别是300维、1024维和128维。

模型使用self-attention编码特征信息，使用multihead-attention融合两种不同的特征序列；这两种方法均基于缩放点积注意力的概念，其定义如下：

其中，

是一个比例因子，Q,K,V是查询、键和值的序列。

模型中引入多头概念，以允许模型在每个位置学习H个不同的表示子空间，同时保持相同的计算效率，通常表示为带有参数化的输入：

其中，

T_*表示特征的长度，D_*表示特征的维度。输入k和v具有相同的维度，输入q的维度与k不同，

表示将相应的输入映射到内部空间

然后多头注意力被定义为映射回查询子空间D_q的H个注意力头的串联，其中

Attention(q,k,v)＝[head₁(q,k,v),head₂(q,k,v),...,head_H(q,k,v)]W^out(3)

模型使用batch大小为32进行训练，并为了同一batch的一致性，在数据处理过程中，先将所有特征填充到batch中最长的序列；由于模态特征的维度大小不同，因此需要将它们映射到模型的内部空间中，内部空间的维度大小为1024维，模型基于Transformer，N为2层，H为4头；最终生成器的输出维度与描述词向量大小一致，为10172维；在最终loss计算标签平滑中使用γ＝0.7，丢失概率p＝0.1；使用默认超参数和学习率为5×10^-5的Adam优化器来训练描述生成器，并在验证集上选择超参数。

2-2在视觉特征送入self-attention进行编码前，先对视觉特征进行视频帧的稀疏采样；视觉特征在送入self-attention时，首先进行位置编码，然后再从视觉特征中随机提取k帧，并b保留随机提取的k帧视频的时序信息；将提取的k帧作为视频的主要视觉特征输入self-attention进行编码；在模型运行的不同层均需对视觉特征重新进行稀疏采样。

2-3视觉特征在经过编码后，引入时间-语义关系模块TSRM来捕获不同事件之间在时间结构和语义方面的丰富信息，结合场景级和帧级关系特征，为密集视频描述构建一个以事件为中心的分层表示；TSRM的输入为整个视频的视觉特征。

TSRM包括时间关系模块和语义关系模块；

对于时间关系模块，模型并不采取直接使用tIOU或两事件之间的距离的方式来构建事件之间的时间关系，而是通过自适应学习过程从数据中获得时间关系；对于一组事件(p_i,p_j)，首先基于它们的相对距离和长度执行位置编码P_ij：

其中，c_i和l_i分别表示事件p_i的中心位置和长度；[·,·]表示两个元素的连接；首先采用c_i-c_j而不是|c_i-c_j|来区分时间顺序；其次将位置编码标准化，以便在时间尺度上独立；之后采用非线性函数将P_ij嵌入到高维空间中，然后再被送入全连接层，以预测时间关系得分

语义关系模块主要采用LSTM来捕获事件与事件之间的语义关系；具体地，首先采用LSTM将帧级的视觉特征

编码成递归特征

对于每个事件p_i，通过连接递归特征

和事件帧级视觉特征的平均池化来构建语义特征S_i，其中

和

分别表示事件p_i的开始和结束时间；为了确定语义关系得分，采用缩放的点积注意力来捕获嵌入语义空间中的线性相关性，当需要处理大量事件时，这在时间和空间上都是高效的；对于一组事件(p_i,p_j)，语义关系得分

被定义为：

其中，W_Q和W_K表示线性嵌入层，其将两个事件的语义特征S_i和S_j映射到维度为d_E的公共嵌入空间中；在运算过程中，默认当前事件和上下文事件之间的语义关系是不对称的，因此使用两个不同的线性层来嵌入这些事件；最终得到事件的时间关系得分和语义关系得分，采用如下定义对它们进行融合：

其中，当前事件p_i的最终得分

其中j∈[1,N_p]，N_p表示事件总个数；F定义为一个乘法运算，F(x₁,x₂)＝x₁·x₂；

事件级关系特征z_i由所有事件嵌入的语义特征的加权和生成：

其中，W_V是类似于W_K和W_Q的输出嵌入层；将得到的事件级关系特征与稀疏采样之后的视觉特征通过multihead attention进行融合，即可得到包含了视频上下文信息的视觉特征，从而解决了视频帧冗余问题与事件上下文信息的引入问题。

2-4事件定位模块专用于生成可能包含事件的一组时间区间，为了实现这一点，模型采用现成的DBG网络来检测每个视频的前100个事件建议，DBG由两个模块组成：时间边界分类TBG和动作感知完整性回归ACR，TBC旨在通过低级双流特征特供两个时间边界置信度图，而ACR旨在通过高级动作感知特征生成动作完整性评分图；在DBG网络生成每个视频的前100个事件建议之后，由于Ground-truth proposals中的建议数量较少，因此执行修改后的事件序列选择网络ESGN来预测候选建议的子集，给定一组候选事件建议，ESGN选择一系列高度相关的事件并构成视频的子集，为此，模型采用一个指针网络PtrNet，该网络旨在通过采用注意力模块，使用循环神经网络在输入集上产生分布；事件序列选择网络ESGN过程如下：

其中，

是指针网络PtrNet中时间步t的隐藏状态，ATT()是计算事件建议置信度分数的注意函数；事件建议p在指针网络PtrNet中的表示u(p)＝[Loc(p)；Vis(p)]由视觉信息Vis(p)和位置信息Loc(p)给出，此外，

是在时间步t选择的事件建议，由下式给出：

ESGN自适应地确定事件的数量和顺序。

M表示通过事件生成网络生成的事件建议总数。

本发明有益效果如下：

为了解决密集视频描述任务中普遍存在的视频帧冗余以及视频中事件之间上下文关系引入问题，减小模型的复杂度和计算量，从而生成更加连贯一致且准确的高质量文本描述。本发明提出了一种基于视频帧稀疏采样的提取方式，并采用了事件时间-语义关系模块获取视频的上下文信息，应用注意力机制，将得到的事件上下文关系与视觉特征进行融合。通过对大量的视频帧进行稀疏采样，显著地减少了视频帧的个数，进而提高了模型运行效率，并且每次只输入少量视频帧也能够让模型对视频的关注度更加精确，从而生成更加准确的文本描述。事件时间-语义关系模块从事件与事件之间的时序和语义关系出发，能够很好地捕捉事件与事件之间的相似度，获取事件的上下文关系，因此可以将其结果作为附加特征，与当前事件的视觉特征融合，从而增强事件级的表示，提高生成句子的连贯性与逻辑性。通过这两种方式的结合，不但能够减少视频噪声的引入，消除同一事件中大量视频帧冗余的问题，还能够利用注意力机制进行融合的操作，以少量的视觉特征作为查询，从而引入与当前视觉特征相关的丰富上下文信息，进一步提高了模型所生成文本的质量与效果。

本发明通过采用以上两种方式，模型在性能与效果上均获得了一定的提升。

附图说明

图1为本发明模型结构示意图。

图2为本发明实现密集视频描述任务完整流程图。

具体实施方式

下面对本发明方法和其详细参数做进一步具体说明。

如图1和2所示，一种基于视频上下文信息融合的多模态密集视频描述方法，具体步骤如下：

步骤(1)、数据预处理，提取视频多模态数据特征；

视频数据集(ActivityNet Captions)，ActivityNet Captions包含来自ActivityNet的20k个视频，按照10024/4926/5044划分为训练集、验证集以及测试集，其中每个视频都带有一系列时间定位的描述。每句描述都覆盖了视频中唯一的一段，描述了发生的事件，这些事件可以在很长或很短的时间内发生，并且不受任何容量的限制，允许它们同时发生。平均而言，在ActivityNet Captions中，每个视频包含约3.65个时间定位句子，总计100k个句子。其中每段视频的句子数量服从相对正态的分布，随着视频时长的增加，句子的数量也会增加，每句话的词数也符合正态分布，平均长度为13.48个词。

VGGish网络在AudioSet上进行了预先训练，用于提取视频的音频特征。VGGish模型处理0.96秒长的音频片段，这些音频片段被表示为大小为96×64的对数梅尔比例谱图，这些谱图通过短时傅立叶变换(STFT)获得。STFT使用25毫秒汉恩窗口，对16kHz单声道音轨应用15毫秒步长。VGGish的预分类层为每个谱图输出128-d的嵌入。因此，数据集中第i个视频的音轨由长度为

的128-d个特征序列表示，堆栈中的每个特征代表0.96秒的原始音轨。

I3D网络在Kinetics数据集上进行了预先训练，用于提取视频的视觉特征。I3D输入以25fps速度提取的，大小为224×224的64RGB和64光流帧，其中，使用PWCNet来提取光流帧。首先，调整两组帧的大小，使min(Height,Width)＝256，然后，将大小为224×224的中心区域裁剪出来，之后，两组视频帧都通过相应的I3D流中，输出1024-d表示的RGB帧和光流帧，最后将这两个帧表示相加，得到了最终为每个视频帧所生成的1024-d表示，因此第i个视频的视觉轨迹由长度为

的1024-d特征序列表示，其中每个特征平均跨越原始视频的2.56秒(64帧)。

文本描述的单词表示嵌入了在Common Crawl数据集(220万词汇量)上预先训练的全局向量(GloVe)表示。预先训练的模型被表示为将词标识映射到300-d嵌入的查找表中。

步骤(2)、建立多模态密集视频描述网络，并引入时间语义关系模块；

2-1采用MDVC作为基准模型，基于Transformer的多模态神经网络来提高视频多模态特征的利用率，生成更加准确的视频描述。模型同时输入三个模态的数据，即描述词向量、视频视觉特征、视频音频特征，采用预训练好的Glove、I3D和VGGish网络独立地进行不同特征的提取，维度大小分别是300维、1024维和128维。

模型中使用self-attention编码特征信息，使用multihead-attention融合两种不同的特征序列。这两种方法均基于缩放点积注意力的概念，其定义如下：

其中

是一个比例因子，目的为了将softmax梯度保持在足够的范围内，Q,K,V是查询、键和值的序列。

模型中引入了多头的概念，以允许模型在每个位置学习H个不同的表示子空间，同时保持相同的计算效率，通常表示为带有参数化的输入：

其中，

表示将相应的输入映射到内部空间

Attention(q,k,v)＝[head₁(q,k,v),head₂(q,k,v),...,head_H(q,k,v)]W^out(3)

模型使用batch大小为32进行训练，并为了同一batch的一致性，在数据处理过程中，先将所有特征填充到batch中最长的序列。由于模态特征的维度大小不同，因此需要将它们映射到模型内部的内部空间中，内部空间的维度大小为1024维，模型基于Transformer，N为2，H为4。最终生成器的输出维度与描述词汇量大小一致，为10172维。在最终loss计算标签平滑中使用γ＝0.7，丢失概率p＝0.1。使用默认超参数和学习率为5×10^-5的Adam优化器来训练描述生成器，并在验证集上选择超参数。

2-2当视频视觉特征在送入self-attention进行编码之前，需要先对视觉特征进行视频帧的稀疏采样，以解决视频中普遍存在的视频帧冗余问题。稀疏采样的主要思想就是将数据特征庞大的视频简化为少量包含视频一定特征的视频帧，这样做既能简化了模型的复杂度，提高了模型的学习能力，而且还能减少了视频中的一些噪声的影响，从而提高了模型的性能与效果。视觉特征在送入self-attention时，首先进行位置编码，从而为视频帧赋予了时间信息，然后再保留时序信息地从视觉特征中随机提取5帧，将提出的5帧视觉特征作为视频的主要视觉信息输入self-attention进行编码。为了能让模型尽可能多的学习到不同视频帧中的特征，在模型运行的不同迭代周期中，都对视频视觉特征重新进行稀疏采样。

2-3视频视觉特征在经过编码后，为了能够更好地利用该视频的丰富特征信息，采用了时间-语义关系模块(TSRM)来捕获不同事件之间在时间结构和语义方面的丰富信息，该模块可以结合场景级和帧级特征关系，为密集视频描述构建一个以事件为中心的分层表示。TSRM的输入为整个视频的视觉特征，因为它的目的是为了构建一个视频中不同事件之间的事件关系。TSRM由两部分组成，即时间关系模块和语义关系模块。首先，对于时间关系模块，模型并不采取直接使用tIOU或计算两事件之间的距离的方式来构建事件之间的时间关系，而是通过自适应学习过程从数据中获得时间关系。

对于一组事件(p_i,p_j)，首先基于它们的相对距离和长度执行位置编码：

其中c_i和l_i分别表示事件p_i的中心位置和长度。[·,·]表示两个元素的连接。开发这种形式一是因为时间顺序很重要，根据观察，ActivityNet Captions中超过一半的视频是由包含与时间顺序相关的单词的描述组成的，例如“继续”，“然后”和“结束”，因此采用c_i-c_j而不是|c_i-c_j|来区分时间顺序，二是位置编码应该被标准化，以便在时间尺度上独立。之后，进一步采用非线性函数将P_ij嵌入到高维空间中，然后再被送入全连接(FC)层，以预测时间关系得分

编码成递归特征

对于每个事件p_i，通过连接递归特征

和事件帧级视觉特征的平均池化来构建语义特征S_i，其中

和

被定义为：

其中，当前事件p_i的最终得分

其中，W_V是类似于W_K和W_Q的输出嵌入层；将得到的事件级关系特征与稀疏采样之后的视觉特征通过multihead attention进行融合，即可得到包含了视频上下文信息的视觉特征，从而解决了视频帧冗余问题与事件上下文信息的引入问题。z_i和所有嵌入的特征的维度设置为512。

最后将得到的事件级关系特征与稀疏采样之后的视觉特征通过multiheadattention进行融合，即可得到包含了视频上下文信息的视觉特征，从而解决了视频帧冗余问题与事件上下文信息的引入问题。2-4事件定位模块专用于生成可能包含事件的一组时间区间，为了实现这一点，模型采用了现成的DBG网络来检测每个视频的前100个建议，DBG由两个模块组成：时间边界分类(TBG)和动作感知完整性回归(ACR)，TBC旨在通过低级双流特征特供两个时间边界置信度图，而ACR旨在通过高级动作感知特征生成动作完整性评分图。在DBG网络生成每个视频的前100个建议之后，由于Ground-truth proposals中的建议数量通常较少，因此执行修改后的事件序列选择网络(ESGN)来预测候选建议的子集，给定一组候选事件建议，ESGN选择一系列高度相关的事件并构成视频的子集，为此，模型采用了一个指针网络(PtrNet)，该网络旨在通过采用注意力模块，使用循环神经网络在输入集上产生分布。事件序列选择网络ESGN过程如下：

其中，

是在时间步t选择的事件建议，由下式给出

ESGN自适应地确定事件的数量和顺序，这有助于紧凑、全面和上下文感知的描述生成，并能够在准确率和召回率之间取得很好的平衡，选择后，每个视频的输出建议数平均约为2.4个。tIOU∈{0.3,0.5,0.7,0.9}上验证集的平均准确率和召回率分别为66.63％和40.09％。

步骤(3)、模型训练；

训练是使用大小为32的小批量进行的，通过填充特征和嵌入描述以匹配最长样本的大小。模型通过优化K-L散度损失来训练，该损失计算真实数据和预测分布之间的“距离”，并在忽略掩码标记的情况下对批次中所有单词的值进行平均，同时应用带有平滑参数γ＝0.7的标签平滑来减轻同义词或人工注释可能包含的错误。具有默认超参数和学习率5·10^-5的Adam优化器用于训练描述生成器。

在训练过程中，模型最多训练200个epoch，如果连续30个epoch计算的两个验证集的ground truth proposals的平均METEOR分数没有提高，则提前停止训练。

训练结束保存模型，则可以根据指定视频及事件划分方式生成高准确率的文本描述。

表1展示的是采用基于视频上下文信息融合的多模态神经网络(BMT-TSR)及其对比算法在ActivityNet Captions数据集上的定量评价结果，文本描述生成质量评价使用BLEU-3(越大越好)，BLEU-4(越大越好)，METEOR(越大越好)这三个指标。该结果表明采用本文的基于视频上下文信息融合的多模态神经网络中的稀疏采样和加入上下文关系模块能有效提升MDVC这类密集视频描述模型的性能，相较于MDVC模型，BMT-TSR在各个指标上都有着一定的提升。

这一结果表明，本文提出的稀疏采样以及上下文关系模块的引入可以使密集视频描述模型生成更好的文本描述。

表1 定量评价结果表

Claims

1.一种基于视频上下文信息融合的多模态密集视频描述方法，其特征在于包括如下步骤：

步骤(1)、数据预处理，提取视频多模态数据特征；

步骤(2)、建立多模态密集视频描述网络，并引入时间-语义关系模块；

步骤(3)、多模态密集视频描述网络的训练，并优化描述生成器，得到模型在视频上的文本描述。

2.根据权利要求书1所述的一种基于视频上下文信息融合的多模态密集视频描述方法，其特征在于步骤(1)所述的数据为视频数据集，包含来自ActivityNet的20k个视频，按照10024/4926/5044划分为训练集、验证集以及测试集，其中每个视频都带有一系列时间定位的描述，且每句描述都覆盖了视频中唯一的一段，描述了发生的事件。

3.根据权利要求书1或2所述的一种基于视频上下文信息融合的多模态密集视频描述方法，其特征在于音频特征和视觉特征在训练前预先计算，具体的VGGish网络在AudioSet上进行预先训练，用于提取视频的音频特征，I3D网络在Kinetics数据集上进行了预先训练，用于提取视频的视觉特征；VGGish模型处理0.96秒长的音频片段，这些音频片段被表示为大小为96×64的对数梅尔比例谱图，这些谱图通过短时傅立叶变换获得；STFT使用25毫秒汉恩窗口，对16kHz单声道音轨应用15毫秒步长；VGGish的预分类层为每个谱图输出128维的嵌入；因此，视频数据集中第i个视频的音轨由长度为T_ai的128维个特征序列表示，堆栈中的每个特征代表0.96秒的原始音轨；I3D输入以25fps速度提取的，大小为224×224的64RGB和64光流帧；其中，使用PWCNet来提取光流帧；首先，调整两组帧的大小，使min(Height,Width)＝256；然后，将大小为224×224的中心区域裁剪出来；之后，两组视频帧都通过相应的I3D输出1024-d表示的RGB帧和光流帧；最后将输出的RGB帧和光流帧相加，得到最终为每个视频帧所生成的1024-d表示，因此第i个视频的视觉轨迹由长度为T_vi的1024-d特征序列表示，其中每个特征平均跨越原始视频的2.56秒。

4.根据权利要求书1或2或3所述的一种基于视频上下文信息融合的多模态密集视频描述方法，其特征在于文本描述的单词通过在Common Crawl数据集上预先训练的全局向量表示；预先训练的模型将全局向量表示映射到维度为D_c的查找表中；每个文本描述的单词都用维度为D_c的描述词向量表示。

5.根据权利要求书1或2或3所述的一种基于视频上下文信息融合的多模态密集视频描述方法，其特征在于步骤(2)具体实现如下：

采用MDVC作为基准模型，基于Transformer的多模态神经网络来提高视觉特征的利用率，生成更加准确的视频描述；模型同时输入三个模态的数据，即描述词向量、视觉特征、音频特征；采用预训练好的Glove、I3D和VGGish网络独立地进行不同特征的提取，维度大小分别是300维、1024维和128维；

其中，

是一个比例因子，Q,K,V是查询、键和值的序列；

head_h(q,k,v)＝Attention(qW_h ^q,kW_h ^k,vW_h ^v),h∈[1,H] (2)

其中，

T_*表示特征的长度，D_*表示特征的维度；输入k和v具有相同的维度，输入q的维度与k不同，

表示将相应的输入映射到内部空间

Attention(q,k,v)＝[head₁(q,k,v),head₂(q,k,v),...,head_H(q,k,v)]W^out (3)

6.根据权利要求书5所述的一种基于视频上下文信息融合的多模态密集视频描述方法，其特征在于在视觉特征送入self-attention进行编码前，先对视觉特征进行视频帧的稀疏采样；视觉特征在送入self-attention时，首先进行位置编码，然后再从视觉特征中随机提取k帧，并保留随机提取的k帧视频的时序信息；将提取的k帧作为视频的主要视觉特征输入self-attention进行编码；在模型运行的不同层均需对视觉特征重新进行稀疏采样。

7.根据权利要求书6所述的一种基于视频上下文信息融合的多模态密集视频描述方法，其特征在于视觉特征在经过编码后，引入时间-语义关系模块TSRM来捕获不同事件之间在时间结构和语义方面的丰富信息，结合场景级和帧级关系特征，为密集视频描述构建一个以事件为中心的分层表示；TSRM的输入为整个视频的视觉特征；

TSRM包括时间关系模块和语义关系模块；

编码成递归特征

对于每个事件p_i，通过连接递归特征

和事件帧级视觉特征的平均池化来构建语义特征S_i，其中

和

被定义为：

其中，当前事件p_i的最终得分

8.根据权利要求书7所述的一种基于视频上下文信息融合的多模态密集视频描述方法，其特征在于事件定位模块专用于生成可能包含事件的一组时间区间，模型采用现成的DBG网络来检测每个视频的前100个事件建议，DBG由两个模块组成：时间边界分类TBG和动作感知完整性回归ACR，TBC旨在通过低级双流特征特供两个时间边界置信度图，而ACR旨在通过高级动作感知特征生成动作完整性评分图；在DBG网络生成每个视频的前100个事件建议之后，由于Ground-truthproposals中的建议数量较少，因此执行修改后的事件序列选择网络ESGN来预测候选建议的子集，给定一组候选事件建议，ESGN选择一系列高度相关的事件并构成视频的子集，为此，模型采用一个指针网络PtrNet，该网络旨在通过采用注意力模块，使用循环神经网络在输入集上产生分布；事件序列选择网络ESGN过程如下：

其中，

是在时间步t选择的事件建议，由下式给出

ESGN自适应地确定事件的数量和顺序；

M表示通过事件生成网络生成的事件建议总数。