CN115496134B

CN115496134B - 基于多模态特征融合的交通场景视频描述生成方法和装置

Info

Publication number: CN115496134B
Application number: CN202211113115.2A
Authority: CN
Inventors: 刘宏哲; 李铭兴; 张�浩; 徐成; 潘卫国; 代松银; 徐冰心
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-10-03
Anticipated expiration: 2042-09-14
Also published as: CN115496134A

Abstract

本发明公开一种基于多模态特征融合的交通场景视频描述生成方法和装置，包括：获取视频特征信息和音频特征信息；将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量；将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合；将多模态信息融合结果输入到解码器，得到每一个单词的概率分布；根据所述每一个单词的概率分布，得到交通场景视频的文本语句描述。采用本发明的技术方案，解决在使用多模态信息进行视频描述处理的时候往往存在多模态信息之间融合度低和模型计算量大的问题。

Description

基于多模态特征融合的交通场景视频描述生成方法和装置

技术领域

本发明属于机器视觉领域和自然语言处理领域，本发明涉及一种基于多模态特征融合的交通场景视频描述生成方法和装置。

背景技术

在主流的视频描述算法中普遍使用RNN(循环神经网络)和Transformer架构进行算法实现。基于RNN的算法需要将视频信息逐一按照顺序进行输入在逐一输出，并不能将视频的特征序列一起输入。而使用Transformer的模型可以将视频的特征序列同时输入到模型中，Transformer具有编码器和解码器两个部分，其中编码器部分通过多头注意力可以将整个特征序列当作输入进行处理。然后再对其输出做一个残差求和，得到的结果输入到一个前馈神经网络当中，在进行残差求和输入到下一层编码器。经过多层的编码器编码得到一个内在表征，在解码器中给再将其与经过掩码多头注意力处理的词嵌入向量作为输入进行和编码器相同的操作最终生成文本描述。目前文本生成算法中性能最好的算法绝大多数都是基于Transformer的模型。在交通场景下单一模态能够使用到的信息是有限的，因此在处理复杂场景问题的时候往往会考虑采用多模态信息进行处理。然而现有模型在使用多模态信息进行视频描述处理的时候往往存在多模态信息之间融合度低和模型计算量大的问题。

发明内容

本发明要解决的技术问问题是，提供一种基于多模态特征融合的交通场景视频描述生成方法和装置，解决在使用多模态信息进行视频描述处理的时候往往存在多模态信息之间融合度低和模型计算量大的问题。

为实现上述目的，本发明采用如下的技术方案：

一种基于多模态特征融合的交通场景视频描述生成方法，包括以下步骤：

步骤S1、获取视频特征信息和音频特征信息；

步骤S2、将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量；

步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合；

步骤S4、将多模态信息融合结果输入到解码器，得到每一个单词的概率分布；

步骤S5、根据所述每一个单词的概率分布，得到交通场景视频的文本语句描述。

作为优选，步骤S1中，通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。

作为优选，步骤S3包括：

步骤S31、将所述Transformer的特征向量输入到多头自注意力编码器，得到第四层编码器输出的视频特征信息和音频特征信息；

步骤S32、将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。

作为优选，步骤S5、根据所述每一个单词的概率分布，通过贪婪算法选出下一个单词，得到交通场景视频的文本语句描述。

本发明还公开一种基于多模态特征融合的交通场景视频描述生成装置，包括：

获取模块，用于获取视频特征信息和音频特征信息；

预处理模块，用于将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量；

融合模块，用于将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合；

解码模块，用于将多模态信息融合结果输入到解码器，得到每一个单词的概率分布；

生成模块，用于根据所述每一个单词的概率分布，得到交通场景视频的文本语句描述。

作为优选，所述获取模块通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。

作为优选，所述融合模块包括：

第一编码单元，用于将所述Transformer的特征向量输入到多头自注意力编码器，得到第四层编码器输出的视频特征信息和音频特征信息；

第二编码单元，用于将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。

作为优选，所述生成装置根据所述每一个单词的概率分布，通过贪婪算法选出下一个单词，得到交通场景视频的文本语句描述。

本发明首先通过训练好的I3D模型和VGGish模型分别提取视频动作特征和音频特征，然后将其进行线性映射形成可以输入到Transformer的特征向量。再通过自注意力编码器同时训练两个模态的信息，然后在第四层编码器的输出部分在视频信息和音频信息中间插入注意力瓶颈信息，从而得到新的特征向量，然后输入到交叉注意力编码器进行多模态信息的融合；最终得到包含了多模态信息的向量映射，再将其输入到解码器当中，同时解码器还以视频描述的语句编码向量作为输入，通过解码器最终生成每一个单词的概率分布，从而通过贪婪算法输出单词，最终生成描述语句。为了应对复杂的交通场景本发明基于Transformer模型通过加入注意力瓶颈模块实现多模态信息的融合，有效提升了多模态信息之间的融合性能从而得到更加准确的描述结果。

附图说明

图1是本发明基于多模态特征融合的交通场景视频描述生成方法的流程图；

图2是本发明基于多模态特征融合的交通场景视频描述生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

如图1所示，本发明提供一种基于多模态特征融合的交通场景视频描述生成方法，包括以下步骤：

步骤S1、获取视频特征信息和音频特征信息；

作为本发明实施例的一种实施方式，步骤S1中，使用I3D模型提取视频特征，得到视频特征信息使用VGGish网络提取音频特征，得到音频特征信息

作为本发明实施例的一种实施方式，步骤S2中，首先将I3D模型提取的视频特征和VGGish提取的音频特征映射到一维的向量空间并拼接到一起组成编码器的输入F＝(V||A)，其中，||代表拼接操作；将描述语句进行词嵌入处理，得到Transformer的特征向量e_≤t＝(e₁，e₂，...，e_t)。

作为本发明实施例的一种实施方式，步骤S中，通过Transformer的编码器模块进行多模态特征的融合，编码器部分以特征为输入，将F映射到一系列的内在表征Z＝(z₁，z₂，...，z_T)。本发明采用了两种编码器进行编码处理，分别是多头自注意力编码器和交叉注意力编码器，并且在交叉注意力编码器的输入中插入注意力瓶颈信息形符(tokens)，具体包括：

步骤S3：先通过多头自注意力编码器对单一模态信息进行训练。使用13D模型和Vggish模型对视频提取特征，再将其映射到线性空间得到线性特征序列V＝(v₁，v₂，...，v_T)和A＝(a₁，a₂，...，a_T)，将其拼接在一起得到特征将其先输入到多头自注意力编码器中分别训练每一种单一模态，第一层编码器以特征F为输入输出其内在表征z^l，之后每层都已前一层输出作为输入通过层归一化计算得/>接着输入到多头自注意力机制/> 再进行一次层归一化最后通过一个全连接层得到编码器的输出多头自注意力编码器的第l层编码器简写为z^l+1＝Encoder(z^l)，当l＝0时z¹＝Encoder(F)。在第四层得到输出Z＝[Z_rgb||Z_spec]，其中Z_rgb、Z_spec分别为视觉信息和音频信息第四层编码器的输出，通过||进行拼接。

步骤S32、将第四层编码器的输出输入到交叉注意力编码器进行多模态信息的融合。在第四层编码器输出上加入B个注意力瓶颈信息形符(tokens)，记为：则交叉注意力编码器的输入变为Z＝[Z_rgb||Z_fsn||Z_spec]。将其作为引入交叉注意力的编码器的输入；

其中，z^l是的拼接，先生成临时瓶颈融合形符/>i可取rgb，spec。l＝5时/>之后对于每层Transformer而言计算过程变为：

作为本发明实施的一种实施方式，步骤S4中，解码器以编码器的输出Z以及一段描述w_≤t＝(w₁，w₂，...，w_t)的词嵌入表示e_≤t＝(e₁，e₂，...，e_t)作为输入，最终得到输出g_≤t＝(g₁，g₂，...，g_t)。

作为本发明实施的一种实施方式，步骤S5中，将解码器的输出g_≤t＝(g₁，g₂，...，g_t)最为输入通过SoftMax层得到每一个单词的概率分布；然后通过贪婪算法选出下一个单词，最终生成交通场景视频的文本语句描述。

本发明首先通过训练好的I3D模型和VGGish模型分别提取视频动作特征和音频特征，然后将其进行线性映射形成可以输入到Transformer的特征向量。再通过自注意力编码器同时训练两个模态的信息，然后在第四层编码器的输出部分在视频信息和音频信息中间插入注意力瓶颈信息，从而得到新的特征向量，然后输入到交叉注意力编码器进行多模态信息的融合；最终得到包含了多模态信息的向量映射，再将其输入到解码器当中，同时解码器还以视频描述的语句编码向量作为输入，通过解码器最终生成每一个单词的概率分布，从而通过贪婪算法输出单词，最终生成交通场景视频的文本语句描述。

实施例2：

本发明实施例提供一种基于多模态特征融合的交通场景视频描述生成方法，包括：

步骤S1、使用FFmpeg对视频进行抽帧处理fps设置为5，最大帧数设置为60。然后采用I3D模型对视频帧提取动作特征以及使用VGGish模型对视频数据集进行音频特征提取。本发明使用的I3D模型使用在kinetics数据集预训练得到的权重，VGGish使用在AudioSet数据集预训练得到的权重

步骤S2、对数据集中的视频描述语句进行词典对应统计即w_≤t＝(w₁，w₂，...，w_t)；并对词典中的单词进行热编码(one-hot)。由于文本数据的表示通常时比较稀疏的单词之间缺少关联性，因此可以通过嵌入不同大小的维度D_T从而降低文本输入的维度，即通过将嵌入权重乘以得到更低维度的单词向量。之后为了使得Transformer模型能够感知单词向量中词语的序列顺序，通过正弦函数和余弦函数组合的方式为文本输入进行位置编码最终得到e_≤t＝(e₁，e₂，...，e_t)作为第一层解码器的输入。

步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合；具体为：

自注意力编码器可简化为z^l+1＝Encoder(z^l)，当即：

将提取的视频动作特征V_rgb和音频特征V_spec分别进行线性映射为512维度和128维度的向量进行拼接得到V＝[V_rgb||V_spec]作为自注意力编码器的输入，先进行层归一化得到的归一化再输入到多头自注意力机制当中得到结果，

之后经过残差链接得到

在经过一次归一化之后经过全连接层得到输出z^l+1，此时

在第四层自注意力编码器输出之间接入2个注意力瓶颈信息形符(tokens)，则交叉注意力编码器的输入变为Z＝[Z_rgb||Z_fsn||Z_spec]。

首先生成临时瓶颈融合形符i可取rgb，spec。

l＝5时，

之后对于每层Transformer而言计算过程变为：

步骤S4、将多模态信息融合结果输入到解码器，得到每一个单词的概率分布；具体为：解码器以一组嵌入字和编码的输出Z_j作为输入，首先t时刻的嵌入字先进行层归一化处理，接着通过多头自注意力机制得到/>通过残差连接得到/>再进行一个层归一化得到/>与编码器得到的输出Z_j一起输入到多头自注意力机制中计算过程如下：

最后经过一个全连接层计算：

FCN(x)＝ReLU(xW₁+b₁)W₂+b₂

得到第l层解码器的输出

其中且偏执量b₁、b₂为可训练参数。

步骤S5、根据所述每一个单词的概率分布，得到交通场景视频的文本语句描述；具体为：在t时刻，生成器将解码器的输出作为输入，并在单词词典/>上生成概率分布。生成器通过将解码器的输出通过SoftMax函数得到每一个单词的概率分布p^(t)＝[0.013，0.571，0.025，0.023，0.019，…，0.001]，并通过选择概率最高的单词作为下一个单词，此时序列为2的单词概率最高因此使将输出p^(t)(2)所对应的单词。

实施例3：

如图2所示，本发明还公开一种基于多模态特征融合的交通场景视频描述生成装置，包括：

获取模块，用于获取视频特征信息和音频特征信息；

作为本发明实施例的一种实施方式，所述获取模块通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。

作为本发明实施例的一种实施方式，所述融合模块包括：

作为本发明实施例的一种实施方式，所述生成装置根据所述每一个单词的概率分布，通过贪婪算法选出下一个单词，得到交通场景视频的文本语句描述。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于多模态特征融合的交通场景视频描述生成方法，其特征在于，包括以下步骤：

步骤S1、获取视频特征信息和音频特征信息；

步骤S5、根据所述每一个单词的概率分布，得到交通场景视频的文本语句描述；

其中，步骤S3中，将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合；具体为：

自注意力编码器简化为z^l+1＝Encoder(z^l)，当即：

之后经过残差链接得到

在经过一次归一化之后经过全连接层得到输出z^l+1，此时

在第四层自注意力编码器输出之间接入2个注意力瓶颈信息形符则交叉注意力编码器的输入变为Z＝[Z_rgb||Z_fsn∥Z_spec]；

首先生成临时瓶颈融合形符i取rgb,spec；

l＝5时，

之后对于每层Transformer而言计算过程变为:

步骤S4中，将多模态信息融合结果输入到解码器，得到每一个单词的概率分布；具体为：解码器以一组嵌入字和编码的输出Z_j作为输入，首先t时刻的嵌入字先进行层归一化处理，接着通过多头自注意力机制得到通过残差连接得到/>再进行一个层归一化得到与编码器得到的输出Z_j一起输入到多头自注意力机制中计算过程如下：

最后经过一个全连接层计算：

FCN(x)＝ReLU(xW₁+b₁)W₂+b₂

得到第l层解码器的输出

其中，且偏执量b₁、b₂为可训练参数；

步骤S5中，根据所述每一个单词的概率分布，得到交通场景视频的文本语句描述；具体为：在t时刻，生成器将解码器的输出作为输入，并在单词词典/>上生成概率分布；生成器通过将解码器的输出通过SoftMax函数得到每一个单词的概率分布p^(t)＝[0.013,0.571,0.025,0.023,0.019,…,0.001]，并通过选择概率最高的单词作为下一个单词，此时序列为2的单词概率最高因此使将输出p^(t)(2)所对应的单词。

2.如权利要求1所述的基于多模态特征融合的交通场景视频描述生成方法，其特征在于，步骤S1中，通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。

3.如权利要求2所述的基于多模态特征融合的交通场景视频描述生成方法，其特征在于，步骤S5、根据所述每一个单词的概率分布，通过贪婪算法选出下一个单词，得到交通场景视频的文本语句描述。

4.一种实现如权利要求1至3任一项所述方法的基于多模态特征融合的交通场景视频描述生成装置，其特征在于，包括：

获取模块，用于获取视频特征信息和音频特征信息；

生成模块，用于根据所述每一个单词的概率分布，得到交通场景视频的文本语句描述；

其中，所述融合模块包括：

5.如权利要求4所述的基于多模态特征融合的交通场景视频描述生成装置，其特征在于，所述获取模块通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。

6.如权利要求5所述的基于多模态特征融合的交通场景视频描述生成装置，其特征在于，所述生成装置根据所述每一个单词的概率分布，通过贪婪算法选出下一个单词，得到交通场景视频的文本语句描述。