CN114677631B

CN114677631B - 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法

Info

Publication number: CN114677631B
Application number: CN202210430266.4A
Authority: CN
Inventors: 高岭; 周腾; 曹亚梅; 周一璇; 陈沐梓; 秦钰林; 曹瑞; 郑杰
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2024-03-12
Anticipated expiration: 2042-04-22
Also published as: CN114677631A

Abstract

一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，包括从外观、运动、语义和音频方面提取多维特征，以增强编码器的内容表示能力；构造编码器，进行多特征的融合；构造解码器，进行词句的预测生成；采取多阶段训练策略进行模型训练。本发明使用最新提出的大规模多语言视频描述数据集VATEX，解决了以往视频描述只有英语数据集的问题，使用多特征融合方法进行编码，模型训练采取多阶段训练策略，避免了“曝光偏差”问题。

Description

一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法

技术领域

本发明涉及计算机视觉和自然语言处理交叉技术领域，具体涉及一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法。

背景技术

如今，互联网上的多媒体数据，尤其是视频的数量日益增加。以公共文化资源数据举例，根据最新统计，文化和旅游部全国公共文化发展中心联合各地建成精品资源约780TB，并推出国家公共文化云，云上累计发布数字资源总量20614条、文化场馆1036个、文化活动4461个。400余家图书馆通过数字图书馆工程开展了文献的数字化和元数据集中仓储建设，资源总量超过22414TB。这其中大量数据都是以视频形式存储。

现实生活中庞大的视频数量导致了视频的自动分类、索引和检索的问题。视频描述生成是通过理解视频中的动作和事件来自动为视频添加描述的任务，这有助于通过文本高效地检索视频。在有效解决视频描述生成的任务时，计算机视觉和自然语言之间的鸿沟也可以大大缩小。视频是由大量连续的帧、声音和运动组成的丰富的信息源。视频中大量相似帧、复杂动作和事件的存在使得视频描述生成的任务具有挑战性。与此同时，现有的大规模视频描述数据集大多是单语的，即只有英语，因此视频描述生成模型的开发仅限于英语语料库。然而，中文视频描述生成的研究对于我国大量不会说英文的人来说是至关重要的。

VATEX是最新提出的大规模多语言视频描述数据集，与广泛使用的MSR-VTT数据集相比，VATEX是多语言的，且规模更大、语言更复杂、视频和自然语言描述更加多样化。VATEX包含大量中英文描述，支持中文相关研究，而这是以往的单语言英文数据集无法满足的；VATEX具备最大数量的视频片段-句子对，且每个视频片段都有多个不同的句子描述，每个描述在整个数据集中都是独一无二的；VATEX包含更全面且具代表性的视频内容，覆盖600种人类活动；VATEX中的中文语料在词汇方面非常丰富，从而可以生成更自然和多样化的视频描述。

目前视频描述生成领域已经完全步入深度学习阶段，在此阶段，已经提出了许多先进的视频描述生成架构，循环神经网络被频繁应用到相关研究，注意力机制也已经被广泛应用到序列学习方法中，但是，目前对注意力机制的使用仅仅局限在对视频提取特征后的单一模态特征中，未能利用到视频本身的多模态特征，这使得注意力机制不能完全发挥出自身的潜力。同时，由于“曝光偏差”问题的存在，导致训练和推理之间产生差距，且大多数模型单单应用交叉熵损失作为它们的优化目标，使得描述生成结果不佳。

发明内容：

为了准确识别视频中的活动事件，生成准确高质量的中文来描述视频，本发明进行特征提取时融合了视频的外观特征、运动特征、语义特征和音频特征，在训练阶段依次采用交叉熵损失和自批评训练模型。提供一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，本发明中的训练集和测试集来自最近提出的最大的多语言数据集，即VATEX。VATEX包含600类人类活动的视频，每个视频配有10个英文和10个中文不同的标题。该数据集的最大挑战是视频内容的多样性，通常很难识别。

为了实现上述目的，本发明采用的技术方式是：

一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，包括以下步骤：

步骤1，从外观、动作、语义和音频方面提取多维特征，以增强编码器的内容表示能力；具体包括：

1)对于外观特征，作用在空间维度上，包含视频显示的事物对象的信息；提取外观特征时首先在ImageNet数据集上使用PNASNet进行预训练，PNASNet是当前图像识别领域的最佳模型NASNet的改进模型，预训练完成后输入提取到的帧得到外观特征；

2)对于动作特征，作用在时间维度上，包含视频中的事物对象进行的活动事件的信息；提取运动特征首先在kinetics-600数据集上使用I3D网络进行预训练，该数据集与VATEX数据集具有完全相同的数据分布，I3D是基于3D卷积的双流模型，在行为分类方面有较大的提高，预训练完成后输入提取到的帧得到运动特征；

3)对于音频特征，使用在Audioset数据集上进行预训练的VGGish网络；首先，为每个音频提取梅尔频谱块；音频的采样率是16千赫；Mel滤波器的数量为64个；STFT窗口长度为25毫秒，顶部长度为10毫秒；预训练完成后输入提取的音频得到音频特征；

4)对于语义特征，使用SDN提取高质量的语义特征，SDN是一个具有足够计算复杂度和输入特征的语义检测网络；输入视频帧得到语义特征；

步骤2，构造编码器，进行多特征的融合；具体包括：

采用低秩多特征融合的方法，通过将张量和权重并行分解，利用特征特定的低阶因子来执行多特征融合，避免计算高维的张量，降低了运算开销，同时将指数级的时间复杂度降低到了线性；

1)将多特征融合用公式表示为一个多线性函数：f：V₁×V₂×…V_M→H,其中V₁×V₂×…V_M是输入特征的向量空间，H是融合后的输出向量空间；给出向量表示的集合，编码M种不同特征的单一特征信息，多特征融合的目标是将单一特征表示集成到一个紧凑的多特征表示中，用于下游任务；

2)为了能够用一个张量来模拟任意特征子集之间的相互作用，在进行外积之前给每个单一特征后面加一个1，因此输入的张量Z通过单个特征的表示计算得到：其中/>是由m索引的向量集合的张量外积，z_m是附加1的输入表示；输入张量/>通过一个线性层g(·)产生一个向量表示：/>其中W是权重，b是偏移量；

3)根据低秩多特征融合方法，将W看作是d_h个M阶张量，每个M阶张量可以表示总是存在一个精确分解成向量的形式：/>使得分解有效的最小的R即为张量的秩；向量的集合/>为原始张量的秩R分解因子；从一个固定的秩r开始，用r分解因子/>重建低秩的/>这些向量可以重组拼接为M个特征特定的低秩因子，令/>则模态m对应的低秩因子为则可以用下式重建得到低秩的权重张量：/>

4)基于W的分解，再根据把原来计算h的式子推导如下：

其中表示一系列张量的元素积，即/>最终的h即为多模态特征经过融合得到的单个特征；

步骤3，构造解码器，进行词句的预测生成；具体包括：

使用top-down模型构造解码器，top-down模型由两层GRU和一个注意力模块组成，其中一个GRU进行粗粒度解码，另一个GRU进行细粒度解码，最终采用细粒度解码的输出预测下一时刻的单词；

1)进行粗粒度解码的GRU在t时刻的输入包含两部分，即前一时刻的隐藏状态以及之前时刻所生成的词S^t-1所对应的词向量,其输出/>如下：

其中，W_es表示训练集中词典对应的词向量矩阵，V为该帧的多模态融合特征，用于指导注意力模块生成的V；

2)进行细粒度解码的GRU在t时刻输入包含三部分，即前一时刻的隐藏状态之前时刻所生成的词S^t-1，S^t-2，S^t-3所对应的词向量，及帧特征V_t，表示如下：

其在t时刻输出通过softmax层后输出在词典上的概率分布p(S^t)；

3)在解码阶段，采用基于自上而下的描述结构；Attention-GRU使用全局视频主题和最后生成的单词，来指导时间注意力模块选择最相关的帧区域；同时，Language-GRU将处理过的上下文信息组合在一起，生成下一个单词；

步骤4，采取多阶段训练策略进行模型训练；基于多特征融合及多阶段训练的视频中文描述生成方法的关键步骤4中，

1)在第一阶段，使用传统的交叉熵损失进行5个时期的训练，学习速率固定在5×10^-5；交叉熵损失函数如下：

其中，T_i表示该视频自带的第i个正确句子的单词数量,W_1～(t-1)表示t时刻之前得到的所有单词的概率分布，V表示该视频的多模态融合特征，θ表示所有随机初始化的参数；

2)第二阶段，使用Word-Level Oracle方法来代替传统的预定采样方法；此方法主要包括两个步骤:选择Oracle Word和衰减采样；损失函数如下：

其中N为训练数据集中的sentence pairs number，|yⁿ|为第n个标注句子的长度，代表第n句第j步的预测概率分布，因此/>为预测第j步标注词汇/>的概率；

3)第三阶段，使用self-critical Sequence Training方法来避免曝光偏差问题；self-critical reinforcement算法直接优化了视频描述任务的评价指标；评价指标CIDEr和BLEU在整个句子生成后同样得到了优化；这一步使得视频描述任务能够更有效地在不可区分的指标上进行训练，并在VATEX数据集上显著提高视频描述性能。

所述的外观特征、动作特征、音频特征、语义特征所有特征全都使用全连接层嵌入到相同的维度中。

本发明的有益效果是：

本发明使用最新提出的大规模多语言视频描述数据集VATEX，解决了以往视频描述只有英语数据集的问题，使用多特征融合方法进行编码，模型训练采取多阶段训练策略，避免了“曝光偏差”问题。

附图说明

图1为本发明的流程示意图；

图2为多特征融合流程示意图；

图3为低秩多特征融合实施示意图；

图4为生成视频描述结构网络示意图；

图5为多阶段训练流程示意图。

具体实施方式

以下结合附图对本发明进一步叙述。

如图1至图5所示，一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，包括以下步骤：

1)对于外观特征，主要作用在空间维度上，包含视频显示了什么事物对象的信息。提取外观特征时首先在ImageNet数据集上使用PNASNet进行预训练，PNASNet是当前图像识别领域的最佳模型NASNet的改进模型，预训练完成后输入提取到的帧得到外观特征。

2)对于动作特征，主要作用在时间维度上，包含视频中的事物对象进行了什么活动事件的信息。提取运动特征首先在kinetics-600数据集上使用I3D网络进行预训练，该数据集与VATEX数据集具有完全相同的数据分布，I3D是基于3D卷积的双流模型，在行为分类方面有较大的提高，预训练完成后输入提取到的帧得到运动特征。

3)对于音频特征，使用在Audioset数据集上进行预训练的VGGish网络。首先，为每个音频提取梅尔频谱块。音频的采样率是16千赫。Mel滤波器的数量为64个。STFT窗口长度为25毫秒，顶部长度为10毫秒。预训练完成后输入提取的音频得到音频特征。

4)对于语义特征，使用SDN提取高质量的语义特征，SDN是一个具有足够计算复杂度和输入特征的语义检测网络。输入视频帧得到语义特征。

步骤2，构造编码器进行多特征融合。本发明采用低秩多特征融合的方法，该方法解决了基于张量的多特征融合方法计算效率差的问题，通过将张量和权重并行分解，利用特征特定的低阶因子来执行多特征融合，避免计算高维的张量，降低了运算开销，同时将指数级的时间复杂度降低到了线性；

4)基于W的分解，再根据把原来计算h的式子推导如下：

步骤3，构造解码器，进行词句的预测生成；具体包括：

步骤4，进行多阶段训练。传统的模型根据上下文信息和前一个字词来预测下一个字词，前一个字词在训练阶段来自真实样本，而在推断阶段则是模型生成词。因此，在训练和推断时的前一个词来自不同的分布，即来自数据分布而不是模型分布，这种差异被称为曝光偏差。两个输入不一致会造成误差累积，最终导致训练和推断之间的差距。同时，大多数模型应用交叉熵损失作为优化目标，但是通常使用离散和不可微的自然语言处理指标在推断时进行评估。基于以上原因，本发明应用多阶段训练策略来训练模型，以避免曝光偏差问题。

采取多阶段训练策略进行模型训练；基于多特征融合及多阶段训练的视频中文描述生成方法的关键步骤4中，

在实施中，通过引入Gumbel-Max技术，可以获得更健壮的词级预测，这提供了一种从类别分布中进行采样的简单有效的方法。此外，由于其特殊设计的采样功能，采样曲线比预定采样方法更平滑。这一步可以明显缓解过拟合的问题，提高模型的探索能力。

Claims

1.一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，其特征在于，包括以下步骤：

步骤2，构造编码器，进行多特征的融合；具体包括：

4)基于W的分解，再根据把原来计算h的式子推导如下：

步骤3，构造解码器，进行词句的预测生成；具体包括：

2.根据权利要求1所述的一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法，其特征在于，所述的外观特征、动作特征、音频特征、语义特征所有特征全都使用全连接层嵌入到相同的维度中。