CN116824461B

CN116824461B - 一种问题理解导向的视频问答方法及系统

Info

Publication number: CN116824461B
Application number: CN202311098884.4A
Authority: CN
Inventors: 刘萌; 厉盛华; 许海振; 韩强; 郭杰; 马玉玲; 宋立莉; 刘旭雅
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Filing date: 2023-08-30
Publication date: 2023-12-08
Anticipated expiration: 2043-08-30

Abstract

本发明属于多媒体问答技术领域，提出了一种问题理解导向的视频问答方法及系统，包括：对视频帧进行特征提取得到外观特征、对象特征和动作特征；对问题进行多层编码后获得单词级问题表示和全局问题表示；利用全局问题表示和视频帧的特征表示作为指导，将对象特征整合到外观中，得到每个视频帧的对象增强的外观特征；将单词级问题表示分别与对象增强的外观特征以及动作特征进行拼接后输入到模型中，得到外观增强的单词级问题表示以及动作增强的单词级问题表示；将外观增强的单词级问题表示以及动作增强的单词级问题表示进行加权融合后输入答案解码器推断出答案。本发明通过利用来自视频的多模态信息，获得对问题的全面理解。

Description

一种问题理解导向的视频问答方法及系统

技术领域

本发明属于多媒体问答技术领域，尤其涉及一种问题理解导向的视频问答方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着社交媒体、在线视频和智能设备的普及，多媒体数据的规模和多样性呈现爆炸式增长。这些多媒体数据中包含了丰富的信息，但传统的文本检索系统无法有效地处理这些数据，满足用户对多媒体数据的需求。多媒体问答的研究旨在克服这些挑战，通过利用计算机视觉、音频处理和自然语言处理等技术，实现对多媒体数据的语义理解和智能问答。

首先，多媒体问答技术可以提高从海量的多媒体数据中挖掘有用的信息和知识的效率。通过从图像、视频和音频等多媒体数据中提取语义特征，可以实现对这些数据的高效搜索、分类和聚类，为用户提供个性化和精准的信息服务。其次，多媒体问答系统可以为不同领域的应用提供强大的支持。在教育、医疗、安防和娱乐等领域，多媒体问答可以帮助用户更直观地获取所需信息，并实现自动化和智能化的数据分析与决策。

视频问答作为多媒体问答的一个重要分支，是一项具有挑战性的任务，需要充分理解视频和问题中的语义信息，以及它们之间的语义关联，才能给出给定问题的预测答案。这需要模型全面理解视频所包含的信息，才能准确地回答问题。视频问答任务位于计算机视觉和自然语言处理(Natural Language Processing，NLP)的交叉领域，结合了视觉理解以及文本信息理解的技术。

与视觉问答不同，视频问答还增加了时序信息，要求模型不仅要理解视频的视觉特征，还要理解其上下文以及不同帧之间的关系。尽管视频问答越来越受欢迎，并且由于其广泛的应用吸引了大量的关注，但它仍然是计算机视觉和自然语言处理领域最大的挑战之一。为了应对这些挑战，专家学者们提出了各种方法。如广泛采用的视频问答框架通常包括四个主要组件:视频编码器、问题编码器、跨模态交互模块和答案解码器。视频编码器使用预训练的2维或3维神经网络的对象级视觉特征和语义特征，联合捕获帧外观和视频片段的运动特征。问题编码器生成问题的令牌级表示，例如GloVe和BERT特征。RNNs、CNNs和Transformers等序列模型则被用来处理视频以及问题的数据，并实现跨模态交互。答案解码器可以采用多项选择的视频问答单向分类器、开放式视频问答的n路分类器或语言生成器的形式。

现有的视频问答研究大多集中在视频理解上，一些方法侧重于时序信息建模，而另一些方法则强调多模态视觉信息的融合。还有一些方法强调问题-视频交互信息建模，如注意力和图神经网络，但这些方法通常优先考虑在交互建模过程中与视觉方面保持一致的跨模态建模。很少有研究强调问题理解建模，即使有研究考虑问题建模，也往往是在单一的语义层面进行分析和理解。然而，问题的准确理解和分析对视频问答任务来说无疑是至关重要。因此，开发复杂的问题理解模型对于视频问答至关重要。

发明内容

为克服上述现有技术的不足，本发明提供了一种问题理解导向的视频问答方法及系统。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了一种问题理解导向的视频问答方法，包括：

对视频帧进行多模态特征提取，得到外观特征、对象特征和动作特征；

获取视频问答的问题，对问题进行多层编码后获得单词级问题表示和全局问题表示；

利用全局问题表示和视频帧的特征作为指导，将对象特征整合到外观中，得到每个视频帧的对象增强的外观特征；

将单词级问题表示分别与对象增强的外观特征以及动作特征进行拼接后输入到神经网络模型中，得到外观增强的单词级问题表示以及动作增强的单词级问题表示；

将外观增强的单词级问题表示以及动作增强的单词级问题表示进行加权融合后输入答案解码器推断出答案。

本发明第二方面提供了一种问题理解导向的视频问答系统，包括：

多模态信息获取模块，被配置为：对视频帧进行多模态特征提取，得到外观特征、对象特征和动作特征；

多层问题编码模块，被配置为：获取视频问答的问题，对问题进行多层编码后获得单词级问题表示和全局问题表示；

外观特征增强模块，被配置为：利用全局问题表示和视频帧的特征作为指导，将对象特征整合到外观中，得到每个视频帧的对象增强的外观特征；

单词级问题表示增强模块，被配置为：将单词级问题表示分别与对象增强的外观特征以及动作特征进行拼接后输入到神经网络模型中，得到外观增强的单词级问题表示以及动作增强的单词级问题表示；

答案生成模块，被配置为：将外观增强的单词级问题表示以及动作增强的单词级问题表示进行加权融合后输入答案解码器推断出答案。

以上一个或多个技术方案存在以下有益效果：

（1）本发明提出了一个创新的多模态和多层问题增强网络来解决视频问答的挑战性问题，特别关注经常被忽视的问题理解建模的挑战。首先从视频中提取对象、外观和运动特征，然后从预训练的语言模型RoBERTa（A Robustly Optimized Bidirectional EncoderRepresentations from Transformer）模型中提取多层输出，以捕获问题中的低级和高级语义信息，这提供了对问题更全面的理解。随后，利用全局问题和视频帧的特征表示作为指导，将对象信息整合到外观中。然后，该网络自适应地获得与问题相关的外观和动作表示。通过结合多模态问题相关信息，推断出答案。

（2）本发明通过利用来自视频的多模态信息，以及来自预训练RoBERT模型的高级语言表示，获得对问题的全面理解，较之前的方法，本发明提高了视频问答的理解能力。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的一种问题理解导向的视频问答方法流程图。

具体实施方式

实施例一

如图1所示，本实施例公开了一种问题理解导向的视频问答方法，包括：

步骤1、提取视频的每个帧的多模态信息，分别进行位置编码后得到外观特征、对象特征和动作特征；

步骤2、获取视频问答的问题，对问题进行多层编码后获得单词级问题表示和全局问题表示；

步骤3、利用全局问题表示和视频帧的特征作为指导，将对象特征整合到外观中，得到每个帧的对象增强的外观特征；

步骤4、将单词级问题表示分别与对象增强的外观表示以及动作特征表示进行交互，得到外观增强的单词级问题表示以及动作增强的单词级问题表示；

步骤5、将外观增强的单词级问题表示以及动作增强的单词级问题表示进行加权融合后输入答案解码器推断出答案。

在步骤1中包括：

步骤101、外观特征表示。外观特征主要是指视频中的物体或场景的视觉外观信息，包括但不限于颜色，纹理和形状等方面。外观特征捕捉了物体在视觉上的表面特征，以便区分不同的物体类别。

步骤1011：外观特征提取：给定一段视频，输入到残差网络ResNet-152（ResidualNetwork-152）中，从ResNet-152的Conv5中得到视频每一帧的特征图，然后将特征图进行全局池化操作和线性映射操作，得到初始外观特征，其中/>表示视频的帧数。

步骤1012：加入位置信息：为了捕获帧之间的空间信息，本发明融合了位置信息到外观特征中，加入位置信息后的外观特征表示为：，其中/>为第/>帧的位置编码。视频帧的外观特征最终表示为：/>。

步骤102、对象特征表示。对象特征是指与特定对象相关的信息。这些特征用于描述对象的独特性，结构和属性，以方便对象在视频中进行检测和识别。

步骤1021：对象特征提取：给定一段视频，将其输入到改进卷积神经网络Fast-R-CNN（Convolutional Neural Network）中，得到每一帧识别出的N个对象，然后再应用RoIAlign从ResNet的卷积层中提取感兴趣的区域，得到对象表示，其中/>表示第/>帧的第/>个对象的特征向量，/>表示对应对象的边界框坐标。

步骤1022：加入位置信息：为了结合对象之间的位置信息，本发明融合了位置编码，得到局部特征表示，其中/>是通过将位于第/>帧的第/>个对象的边界框坐标输入到带有Relu激活函数的多层感知网络中得到的，/>表示第/>帧的位置编码，/>表示全连接层。最终的视频对象特征表示为：。

步骤103、动作特征表示。动作特征是指视频序列中物体或相机的运动信息。这些特征可用于分析动作的方向、速度等，以便对视频中的对象行为进行识别。

步骤1031：动作特征提取：给定一段视频，将其输入到在Kinetics数据集上预训练的膨胀卷积网络I3D（inflated 3D network）网络中，为视频的每一帧生成一个特征图，然后对每一个特征图执行全局平均池化操作，为每一帧生成一个单独的特征向量，再对这些特征向量进行线性投影，得到动作特征。

步骤1032：加入位置信息：为了融合位置信息到动作特征中，将位置信息附加到动作特征向量上，然后将其输入到全连接层得到视频的最终动作表示：。

在步骤2中，为了更好地捕获自然语言的复杂性以及多样性，为视频问答提供更加准确的答案。本发明提出了一个新的方法，称为问题编码模块。该模块主要包含两个组件：1）多层问题表示提取，2）多层问题表示聚合。多层问题表示提取组件主要用于捕获问题中的低层和高层语义信息，更加全面的理解问题。多层问题表示聚合组件主要用于聚合来自不同层的信息以增强问题的整体理解。

具体的，多层问题编码包括：

步骤201、多层问题表示提取

步骤2011：问题多层嵌入：将给定的问题输入，先对其进行tokenizer处理，即按照预先定义好的词典，将给定的文本转换成序列，然后将这个序列输入到在大规模文本语料库上预训练的RoBERTa模型中，捕获上下文信息以及单词间的依赖关系。本发明利用RoBERTa模型的多个层（分别为第3、6、9个隐藏层以及最后一层隐藏层）来提取不同抽象层次的不同特征。

步骤2012：问题多层编码：将RoBERTa模型第层上得到的输出作为输入，输入到全连接层，再对其进行Relu操作，得到问题的第/>层单词级表示为：/>。

将问题的单词级表示输入到长短期记忆网络（Bidirectional Long Short-Term Memory BiLSTM）中，获得上下文感知的单词级问题表示/>和第/>层的语句级问题表示/>。

步骤202、多层问题表示汇聚

步骤2021：全局问题表示：在获得问题的多层和多级（语句级和单词级）表示后，执行多层特征汇聚以获得最终的单词级和语句级问题表示。

将每一层的上下文感知的单词级问题表示堆叠起来得到问题的单词级表示，将每一层语句级问题表示/>堆叠得到最终问题的语句级表示/>。其中，/>表示来自于RoBERTa模型索引层的总数。

将得到的最终的语句级问题表示沿着层维度方向进行平均池化即，得到最终的全局问题表示/>；

其中，Stack堆叠是指沿着一个新维度对输入张量序列进行连接。本实施例是指将单词级问题表示（shape为/>）沿着0维堆叠，共有/>个/>，经过堆叠后的shape为。

步骤2022：语句级问题表示增强：由于单词级问题表示中可能会存在一些无意义的单词，这将对聚合过程产生负面影响。为解决这个问题，有些方法通过使用不同层的语句级问题表示来过滤相应层的单词信息，但由于它们之间缺少信息感知，其效果有限。

为解决这个问题本发明提出了一种基于高斯注意力的语句级问题表示增强模块。首先将问题的多层语句级表示嵌入到高斯空间得到经过高斯处理的全局问题语句级表示/>，接下来对全局语句级问题表示/>和局部语句级问题表示/>之间的维度相似性进行建模。然后使用每一层的问题的语句级表示的元素权重来获得细粒度的语义增强语句级问题表示，其表述形式如下：

其中，表示高斯函数，/>表示沿层索引的平均池化，/>表示在高斯核空间中计算的维度注意力图，/>表示维度收缩投影，/>和/>表示维度膨胀投影，表示细粒度的语义增强的语句级问题表示。

步骤2023：单词级问题表示汇聚：利用多层感知网络以及softmax函数，基于得到的语义增强的语句级问题表示，得到汇聚的单词级问题表示。

将得到的细粒度的语义增强的语句级问题表示输入到多层感知网络中，得到逐层的注意力向量/>，/>表示对于每一层对于最终的单词级问题表示的贡献的重要性。将得到的注意力向量/>对多层单词级问题表示/>加权求和得到汇聚的单词级问题表示。

其中，表示来自于RoBERTa模型索引层的总数，/>表示第/>层的注意力权重。

步骤3中，对象增强的外观编码模块包括：

步骤301、上下文增强的视频对象表示：考虑到对象信息是外观信息的重要补充，并且是一种有效的提高视频帧表示的手段。本发明提出了一种将对象信息与外观信息相结合以增强视频帧表示的方法。由于存在部分对象信息对问题推理产生负面影响的情况，本发明在考虑全局问题信息和视频帧细节的情况下，引入了自适应地聚合每一帧中的对象的方法。本发明采用多头自注意力机制来检查对象之间的时空关系，从而丰富每个对象的表示。为了避免信息偏见，本发明引入一种shortcut机制，在初始表示中添加由上下文增强的对象表示。首先将视频对象特征表示作为输入，输入到多头注意力机制中，然后将多头注意力机制输出的结果与/>相加，得到上下文增强的视频对象表示/>。其过程可以表示为：

，

其中，，/>表示在第/>帧的第/>个对象的上下文增强表示。

步骤302、获取全局感知的对象信息：首先计算每个对象和全局问题表示之间的相关性分数。然后使用softmax函数对得到的相关性分数进行归一化，获得所有对象的注意力分数。最后对每一帧内的对象执行加权求和，得到视频帧的全局问题感知外观表示，其表述形式如下：

其中，为是第/>帧的全局问题感知外观表示，/>和/>表示全连接层，视频的全局视频-问题感知外观表示：

。

步骤303、类似的，可以根据全局视频帧信息聚合对象，首先计算每个对象和全局视频帧外观表示之间的相关性分数。然后使用softmax函数对得到的相关性分数进行归一化，获得所有对象的注意力分数。最后对每一帧内的对象执行加权求和，得到视频帧的全局帧感知外观表示，其表述形式如下：

其中，为第/>帧的全局帧感知外观表示，/>和/>表示全连接层。视频的全局感知外观表示为：

。

步骤304、在得到每个帧的全局问题感知外观表示以及全局帧感知外观表示信息后，考虑它们对最终结果的不同影响，采用自适应融合机制来融合它们，其表述形式如下：

其中，表示带有ReLU激活函数的两层多层感知网络，三个外观表示的注意力分数由/>给出。对象增强的外观表示为：。

步骤4中，外观和动作增强问题编码模块包括：

步骤401、外观和动作增强问题表示：在得到外观特征、动作特征以及单词级问题特征后，本发明通过将单词级问题特征分别与外观特征、动作特征进行交互，增强对问题的理解。由于单词级问题特征与外观特征之间的交互操作和与动作特征之间的交互操作类似。本发明以单词级问题特征与外观特征交互操作为例。

具体来说，首先将外观特征与时间维度中的单词级问题特征连接起来，并将它们输入到基于注意力机制的神经网络模型Transformer中。然后提取与单词级问题特征相关的输出序列的相应部分，得到外观模态的增强问题表示。其计算过程如下：

其中，表示线性插值算法；/>表示经过线性插值的外观特征，由对象增强的外观特征进行线性插值得到；/>表示连接操作；外观增强的单词级问题表示为：/>。

其中，表示经过线性插值的动作特征，由动作特征进行线性插值得到。动作增强的单词级问题表示为：/>。

然后通过计算每个序列的重要性分数，应用加权和来动态融合这两个单词级表示序列，其表述形式如下：

其中，分别表示为两个交互特征计算的注意力分数。/>和表示带有ReLU激活函数的两层多层感知网络。/>，/>表示经过注意力机制后的交互特征。

步骤5中，不同交互特征的融合过程如下：

其中，表示在融合特征上计算的注意力分数，/>表示对融合特征应用注意权值后的最终特征表示。

将最终的特征表示输入到答案解码器得到答案的概率。

关于模型训练过程中使用的损失函数：

（4）损失函数（Loss Function）

[1]损失函数计算（Loss function calculation）

[1-1]损失函数计算

将最终的特征表示输入到全连接层得到答案的概率。

由于视频问答任务包括各种任务，例如计数任务、多项选择任务和开放式任务。本发明为不同任务类型优化不同的损失函数：1）对于计数任务，本发明使用Adam优化器来最小化均方误差（MSE）损失，这有助于有效地为这些任务训练模型。2）对于多项选择任务，本发明使用Adam优化器来最小化每对候选者之间的铰链损失，该模型训练模型在几个选项中辨别正确的选择。3）对于开放式任务，本发明使用Adam优化器优化交叉熵损失，使模型能够在这些任务中生成更准确和连贯的答案。

实施例二

本实施例公开了一种问题理解导向的视频问答系统，包括：

单词级问题表示增强模块，被配置为：将单词级问题表示分别与对象增强的外观特征以及动作特征进行拼接后输入到神经网络模型Transformer中，得到外观增强的单词级问题表示以及动作增强的单词级问题表示；

进一步的，所述对问题进行多层编码包括：

将问题输入至预训练的RoBERTa模型中，提取不同抽象层次的不同特征；将提取的不同层次的特征分别输入至全连接层，再对其进行Relu激活操作，得到每一层的单词级问题表示；

将每一层的单词级问题表示输入至长短期记忆网络中，得到每一层的上下文感知的单词级问题表示和语句级问题表示；

分别将每一层的上下文感知的单词级问题表示和语句级问题表示进行多层特征汇聚后得到最终的单词级问题表示和语句级问题表示；

将最终的语句级问题表示沿着层维度方向进行平均池化，获得全局问题表示。

进一步的，利用预训练的RoBERTa模型的第3隐藏层、第6隐藏层、第9隐藏层以及最后一层隐藏层来提取不同抽象层次的不同特征。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种问题理解导向的视频问答方法，其特征在于，包括：

将外观增强的单词级问题表示以及动作增强的单词级问题表示进行加权融合后输入答案解码器推断出答案；

所述对问题进行多层编码包括：将问题输入至预训练的语言模型中，提取不同抽象层次的不同特征；将提取的不同层次的特征分别输入至全连接层，再对其进行激活操作，得到每一层的单词级问题表示；

将最终的语句级问题表示沿着层维度方向进行平均池化，获得全局问题表示；

所述分别将每一层的上下文感知的单词级问题表示和语句级问题表示进行多层特征汇聚，包括：

对语句级问题表示和全局问题表示之间的维度相似性进行建模，然后使用每一层的问题的语句级问题表示的元素权重来获得细粒度的语义增强的语句级问题表示；

将语义增强的语句级问题表示输入至多层感知网络，得到每一层的注意力向量；基于注意力向量对单词级问题表示进行加权求和得到最终的单词级问题表示。

2.如权利要求1所述的一种问题理解导向的视频问答方法，其特征在于，利用预训练的语言模型的第3隐藏层、第6隐藏层、第9隐藏层以及最后一层隐藏层来提取不同抽象层次的不同特征。

3.如权利要求1所述的一种问题理解导向的视频问答方法，其特征在于，所述利用全局问题表示和视频帧的特征作为指导，将对象特征整合到外观中，得到每个视频帧的对象增强的外观特征，包括：

利用多头注意力机制对对象特征进行处理，得到上下文增强的对象特征；

利用全局问题表示聚合对象特征，得到每一帧的全局问题感知外观表示；

利用外观特征聚合对象，得到每一帧的全局帧感知外观表示；

采用自适应融合机制融合每一帧的外观特征、问题感知表示以及外观感知表示，得到对象增强的外观特征。

4.如权利要求3所述的一种问题理解导向的视频问答方法，其特征在于，所述利用全局问题表示聚合对象特征，得到每一帧的全局问题感知外观表示，包括：

计算每个对象特征和全局问题表示之间的相关性分数，对得到的相关性分数进行归一化，获得所有对象的注意力分数；

根据注意力分数对每一帧内的对象进行加权求和，得到每一帧的全局问题感知外观表示。

5.如权利要求3所述的一种问题理解导向的视频问答方法，其特征在于，所述利用外观特征聚合对象，得到每一帧的全局帧感知外观表示，包括：

计算每个对象和视频帧外观特征之间的相关性分数，对得到的相关性分数进行归一化，获得所有对象的注意力分数；对每一帧内的对象执行加权求和，得到每一帧的全局帧感知外观表示。

6.一种问题理解导向的视频问答系统，其特征在于，包括：

所述对问题进行多层编码包括：

将问题输入至预训练的语言模型中，提取不同抽象层次的不同特征；将提取的不同层次的特征分别输入至全连接层，再对其进行激活操作，得到每一层的单词级问题表示；

将语义增强的语句级问题表示输入至多层感知网络，得到每一层的注意力向量；基于注意力向量对单词级问题表示进行加权求和得到最终的单词级问题表示；

7.如权利要求6所述的一种问题理解导向的视频问答系统，其特征在于，利用预训练的语言模型的第3隐藏层、第6隐藏层、第9隐藏层以及最后一层隐藏层来提取不同抽象层次的不同特征。