CN116385937A

CN116385937A - 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

Info

Publication number: CN116385937A
Application number: CN202310371771.0A
Authority: CN
Inventors: 孙广路; 邱瑾; 梁丽丽; 王艺达
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-04

Abstract

本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统，涉及计算机视觉和自然语言处理领域。本发明的技术要点包括：对视频提取帧级与目标级特征，并提取描述文本的语义词性和问题的词嵌入向量，利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示，利用图神经网络集成不同粒度的表示，并利用注意力来捕获同模态的视频、同模态的文本，以及跨模态视频和文本之间的交互信息，生成基于问题的视觉表示和基于视频的文本表示，进而自适应地融合基于问题的视觉表示和基于视频的文本表示，生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。

Description

一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

技术领域

本发明涉及计算机视觉和自然语言处理领域，具体涉及一种基于多粒度的跨模态交互框架解决视频问答的方法及系统。

背景技术

多模态开放式的视频问答任务是一种结合计算机视觉和自然语言处理领域的多模态任务，该任务通过给定一个包含描述信息的视频和一个自然语言描述的问题，在理解视频内容和问题的基础上，自动地预测出问题的答案。

视频问答的目的是在理解多模态视频内容的基础上正确回答给定的问题。现有的解决视频问答任务的核心技术涉及图神经网络和注意力机制，图神经网络的思想是通过注意力机制来整合图结构中的邻域结点信息，实现对不同邻域结点权重的分配，获取视频信息来预测答案。注意力机制的思想是计算问题与视频信息之间的相似度，为与问题相关的视频信息分配较高的权重值，并基于此生成答案。

但是，现有的图神经网络仅关注视觉或语言的整体内容，有意义和细粒度的视觉或语言内容常常被忽略，这会导致视频问答模型遗漏了回答问题所需要的细节信息，从而影响了对于视频信息的理解，降低了答案预测的准确性。其次，目前的注意力模型难以有效整合同模态的视频、同模态的文本、以及跨模态视频和文本之间的信息。这会导致视频问答模型很难从大量的视频信息中找到正确答案的证据。因此，解决视频问答任务需要具有两个关键的功能：理解不同语义层次上的视频内容；灵活地整合不同模态的视频内容，来提取与问题相关的内容。

发明内容

为此，本发明提出一种基于多粒度的跨模态交互框架解决视频问答的方法及系统，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一方面，提供一种基于多粒度的跨模态交互框架解决视频问答的方法，该方法包括以下步骤：

S1、对于输入的视频，提取视频帧特征，所述视频携带对应的描述文本；同时对于视频帧中的目标，提取目标级特征，所述目标级特征包括目标特征、目标位置和类别标签；

S2、对于所述视频对应的描述文本，提取描述文本的词性分析结果；所述描述文本包括一个或多个；

S3、对于输入的有关视频内容的问题，提取所述问题的特征，即提取问题的词嵌入向量，获得问题中每个单词的语义信息；

S4、将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中，获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示；

S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中，获得基于问题的视觉表示和基于视频的文本表示；

S6、根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。

进一步地，S1中利用预训练的ResNet模型提取视频帧特征，利用预训练的FasterR-CNN模型提取视频帧的目标特征。

进一步地，S2中利用SRL工具包分析描述文本的词性，获取词性分析结果，所述词性分析结果包括每个描述文本对应的动词和实体。

进一步地，S3中利用预训练的wordembedding模型提取问题的特征。

进一步地，S4中获得视频帧的全局表示和细粒度表示的具体过程包括：

将提取的视频帧特征使用全连接层进行映射，得到视频帧的全局表示；

将视频帧中目标作为图结点，构建基于图神经网络的空间图G_p＝(V_p,E_p,R_p)和语义图G_e＝(V_e,E_e)；其中，V_p和V_e代表目标结点，E_p代表空间图的边，E_e代表语义图的边，R_p代表视频帧中目标边框的相对位置；所述目标边框的相对位置是根据同一帧中目标位置计算获得的两个目标边框的IOU值；

利用视频帧中目标位置和目标特征初始化空间图的结点；利用视频帧中目标类别标签和目标特征初始化语义图的结点；

利用视频帧中目标边框的相对位置和ReLU激活函数对空间图结点进行更新，计算公式如下：

其中，

表示空间图第i个结点在图神经网络第l层的更新；W_p表示图神经网络的结点转换矩阵；b_p(r_i,j)表示目标边框的相对位置r_i,j的学习向量；N_i表示空间图中结点i的邻域；

对语义图的多个初始结点加权获得邻接矩阵，所述邻接矩阵包括每个结点的邻接点集合；根据邻接矩阵和ReLU激活函数对语义图结点进行更新，计算公式如下：

其中，

表示语义图第i个结点在图神经网络第l层的更新；A_e,i表示第i个结点的邻接矩阵；/>

表示利用邻接矩阵A_e,i得到的与第i个结点相邻的结点；W_e表示变换矩阵；/>

表示注意力系数；

利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化，分别获取帧级嵌入，并对多个视频帧的帧级嵌入进行堆叠，获得视频帧的细粒度表示。

进一步地，S4中获得描述文本的全局表示和细粒度表示的具体过程包括：

根据每个描述文本的词性分析结果构建角色图G_r＝(V_r,E_r,T_r)，描述文本即句子，其本身作为全局结点，动词和实体分别作为动作结点和实体结点，每个动作结点直接连接全局结点，每个实体结点与不同的动作结点连接；其中，V_r代表动词、实体、句子组成的结点，E_r代表角色图的边，T_r代表每个结点的类型，类型包括动词、实体或句子；

对每个描述文本利用BERT模型提取句子特征和词级特征，句子特征是将每个单词的语义信息按文本顺序拼接，得到有上下文的句子语义信息；词级特征是每个单词的语义信息；

对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入，对词级特征利用非线性投影初始化动词和实体结点；

基于描述文本的词性分析结果和ReLU激活函数更新角色图结点，计算公式如下：

其中，

表示角色图中第i个结点在图神经网络第l层的更新；W_r1为嵌入矩阵，t_r,i为T_r中第i个结点的类型；N_i表示角色图中第i个结点的邻域；W_r2为变换矩阵；/>

为注意力系数；/>

表示角色图中第i个结点的邻域点在图神经网络第l层的更新；

在更新后，对多个描述文本的句子结点进行堆叠，得到描述文本的全局表示；使用图池对动作结点和实体结点进行平均池化，得到细粒度语言嵌入；

将多个描述文本的细粒度语言嵌入进行堆叠，得到描述文本的细粒度表示。

进一步地，S5中获得基于问题的视觉表示和基于视频的文本表示的具体过程包括：

将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图，将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图，并对视觉图的结点进行编码，得到视觉图编码V′；对语言图的结点进行编码，得到语言图编码L′；

利用单层前馈网络将视觉图编码V′和问题的词嵌入向量Q分别与语言图编码L′合并编码，得到编码后的视频表示V₁和问题表示Q₁；

利用softmax函数对视频表示V₁应用同模态注意力机制得到同模态下的视频编码V_s，应用跨模态注意力机制得到跨模态下的视频编码V_d；

利用softmax函数对问题表示Q₁应用同模态注意力机制得到同模态下的问题编码Q_s，应用跨模态注意力机制得到跨模态下的问题编码Q_d；

利用sigmoid激活函数将视频编码V_s和V_d融合，将问题编码Q_s和Q_d融合，得到视频表示V₂和问题表示Q₂；

利用上下文注意力机制得到视频表示V₂和问题表示Q₂的融合权重，根据融合权重和单层前馈网络得到基于问题的视觉表示V_q和基于视频的文本表示Q_v。

进一步地，S6的具体过程包括：将基于问题的视觉表示V_q和基于视频的文本表示Q_v进行拼接，得到问题参与的视觉表示H；对问题的词嵌入向量Q通过双向长短期记忆网络得到问题表示Q′，将视觉表示H和问题表示Q′输入到分类器中计算每种答案的置信度；从答案中选择置信度最高的答案作为预测的答案。

根据本发明的另一方面，提供一种基于多粒度的跨模态交互框架解决视频问答的系统，该系统包括：

视频特征提取模块，其配置成对于输入的视频，提取视频帧特征，所述视频携带对应的描述文本；同时对于视频帧中的目标，提取目标级特征，所述目标级特征包括目标特征、目标位置和类别标签；

文本特征提取模块，其配置成对于所述视频对应的描述文本，提取描述文本的词性分析结果；所述描述文本包括一个或多个；

问题特征提取模块，其配置成对于输入的有关视频内容的问题，提取所述问题的特征，即提取问题的词嵌入向量，获得问题中每个单词的语义信息；

编码模块，其配置成将提取的所述视频帧特征、所述目标级特征和所述词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中，获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示；

融合推理模块，其配置成将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的特征一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中，获得基于问题的视觉表示和基于视频的文本表示；

答案预测模块，其配置成根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。

进一步地，所述编码模块中获得视频帧的全局表示和细粒度表示的具体过程包括：

其中，

其中，

表示注意力系数；

利用图池将每一帧对应的更新后的空间图结点和语义图结点分别进行平均池化，分别获取帧级嵌入，并对多个视频帧的帧级嵌入进行堆叠，获得视频帧的细粒度表示；

所述编码模块中获得描述文本的全局表示和细粒度表示的具体过程包括：

其中，

为注意力系数；/>

本发明的有益技术效果是：

本发明提出了一个基于多粒度的跨模态交互框架来解决视频问答任务。为了充分理解不同语义层次的视频内容，提出了基于图神经网络的多粒度编码模块。具体来说，利用基于图神经网络的视觉和语言编码器对提取的视频帧特征、目标特征以及描述文本进行编码，获取多粒度的视觉表示和语言表示。其次，为了有效捕获同模态的视频、同模态的文本，以及跨模态视频和文本之间的交互信息，提出了多模态注意力融合推理模块。具体来说，分别对多粒度视觉表示和语言表示进行编码融合，执行以问题为导向的注意力机制来捕获信息，将同模态的视频、同模态的文本分别与跨模态视频和文本之间的交互信息融合，获取与问题相关的视觉表示，并基于此预测答案。

本发明利用图神经网络处理视频的不同语义层次信息，并通过注意力模块捕获视觉信息和语言信息，推理出以问题为导向的视觉表示，并基于此来预测答案。其中，对视频提取视频帧和目标特征，对描述文本进行词性分析，获取不同单词的词性信息，提升了视频信息的获取能力；设计的基于图神经网络的多粒度编码模块，获取了视频与描述文本的全局表示和细粒度表示，从不同的语义层次上理解视频内容，提高了推理的准确性；设计的多模态注意力融合推理模块，捕获了视觉信息和语言信息，并将获取到的多模态信息与问题特征充分融合，灵活整合了不同层次的视频内容，提升了对视频信息的理解能力。

在MSRVTT-QA数据集上的实验结果表明，本发明提出的基于多粒度的跨模态交互框架解决视频问答的方法优于其他方法。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本发明实施例所述一种基于多粒度的跨模态交互框架解决视频问答的方法流程示意图；

图2为本发明实施例中使用角色图嵌入示意图；

图3为本发明实施例中基于注意力机制的多模态注意力融合推理模块示意图；

图4为本发明实施例所述的基于多粒度的跨模态交互框架解决视频问答的方法的整体框架图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

本发明实施例提出一种基于多粒度的跨模态交互框架解决视频问答的方法，如图1所示，该方法包括以下步骤：

S5、将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的特征即问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中，获得基于问题的视觉表示和基于视频的文本表示；

下面对本发明实施例进行详细说明。

在S1中，对于输入的视频，提取视频帧特征，同时对于视频帧中的目标，提取其目标级特征，目标级特征包括目标特征、目标位置和类别标签。

根据本发明实施例，对于输入的每个视频，均匀采样64帧，对得到的视频帧进行特征提取，获得静态图像信息；同时，检测每个视频帧中置信度得分高的多个目标进行特征提取，获得目标特征、目标位置和类别标签；目标特征例如为目标的尺寸、目标周围的背景与相邻物体，并进一步利用目标特征提取目标位置和类别标签。具体如下。

对于输入的视频，使用预训练的ResNet模型提取输入视频的视频帧特征F＝[f₁,f₂,...,f_N]，其中，

代表整个视频的视频帧特征，f_i代表视频第i帧的特征，N代表视频帧的数量。

对于视频帧，使用预训练的FasterR-CNN模型提取视频帧的目标特征O＝[O₁,O₂,...,O_N]，其中O_i＝[o₁,...,o_j,...,o_M]，

代表整个视频的目标特征，

代表视频第i帧的目标特征，o_ij代表视频第i帧的第j个目标的特征，N代表视频帧的数量，M代表视频第i帧中目标的数量。

进一步根据目标特征得到目标位置P＝[P₁,P₂,...,P_N]，且P_i＝[p₁,...,p_M]，p_j＝[p_x,p_y,p_x+p_w,p_y+p_h,p_w,p_h]^Τ，其中，

代表整个视频的位置信息，/>

代表视频第i帧目标位置信息，p_j代表视频帧中第j个目标位置信息，p_x、p_y分别代表目标边框左上角的x坐标和y坐标，p_w、p_h分别代表目标边框的宽和高。根据同一帧中目标位置信息，可以计算两个目标边框的IOU值，得到目标边框的相对位置r_i,j，即该帧中目标i和目标j的IOU值。

进一步根据目标特征得到目标标签C＝[C₁,C₂,...,C_N]，且C_i＝[c₁,...,c_M]，其中，

代表整个视频的目标标签，/>

代表视频第i帧的目标标签，c_j代表视频第i帧的第j个目标的目标标签。

在S2中，对于视频对应的描述文本，提取描述文本的词性分析结果；其中描述文本包括一个或多个。

根据本发明实施例，对于输入视频对应的描述文本，对其进行词性分析，使用SRL工具包分析词性，获取描述文本中的动词和实体D＝[D₁,...,D_S]，且

其中，/>

代表整个视频描述文本的词性信息，

代表视频第i个描述文本的词性信息，/>

代表视频第i个描述文本的第j个动词，

代表视频第i个描述文本的第j个实体，S代表视频描述文本的数量，X代表描述文本的长度，Y代表视频第i个描述文本中动词的数量，Z代表视频第i个描述文本中实体的数量。

在S3中，对于输入的有关视频内容的问题，提取问题的特征，即提取问题的词嵌入向量，获得问题中每个单词的语义信息。

根据本发明实施例，对于输入的问题，提取句子的问题特征，即提取问题的词嵌入向量，获得问题中每个单词的语义信息。使用预训练的wordembedding模型提取问题特征Q＝[q₁,...,q_W]，其中，

代表问题特征，q_i代表问题第i个词的特征，W代表问题的长度。

在S4中，将提取的视频帧特征、目标级特征和词性分析结果输入到预训练的基于图神经网络的多粒度编码模块中，获得视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示。

根据本发明实施例，获得视频帧的全局表示和细粒度表示的具体过程包括：

a.将提取的视频帧特征使用全连接层映射到d维空间，得到视频帧的全局表示

其中，V代表视频，g代表全局。

b.首先，使用第i个视频帧的目标作为图结点，构建空间图G_p＝(V_p,E_p,R_p)和语义图G_e＝(V_e,E_e)，其中，V_p和V_e代表目标结点，E_p代表空间图的边，E_e代表语义图的边，R_p代表帧中目标边框的相对位置；利用视频帧中第i个目标的位置信息p_i和提取的目标特征o_i初始化空间图的结点，计算公式如下：

其中，

代表空间图的第i个初始化目标结点，/>

和/>

用于将目标特征o_i映射为d维表示，/>

和/>

用于将目标特征p_i映射为d维表示，/>

用于将拼接的特征转换为d维表示空间；

然后，利用视频帧中第i个目标的目标特征o_i和目标类别标签c_i初始化语义图的结点，计算公式如下：

其中，

代表语义图的第i个初始化目标结点，/>

和/>

与(1)式相同，/>

和/>

用于将目标特征c_i映射为d维表示；

然后，利用帧中目标边框的相对位置r_i,j对空间图结点进行更新，计算公式如下：

其中，

代表空间图第i个结点在图神经网络的第l层的更新，/>

为图神经网络的结点转换矩阵，/>

为相对位置r_i,j的学习向量，N_i代表空间图中结点i的邻域，/>

代表加法操作，ReLU(·)是激活函数，计算公式如下：

ReLU(x)＝max(0,x) (4)

其中，x代表任意一个变量，max(·)是取0与x的最大值。

然后，利用语义图的多个初始目标结点

可以得到邻接矩阵A_e，计算公式如下：

A_e＝(W₁V_e ⁰)(W₂V_e ⁰)^Τ (5)

其中，

为权重矩阵。

在确定邻接矩阵A_e后，邻接矩阵A_e的每一行表示与第i个结点相邻的结点集合，根据其可以确定语义图中的相邻结点，并根据相邻结点对语义图中的结点进行更新，计算公式如下：

其中，ReLU(·)是上述的激活函数，

代表语义图第i个结点在图神经网络的第l层的更新，/>

代表利用邻接矩阵A_e得到的与第i个结点相邻的结点，/>

为变换矩阵，

为注意力系数，计算公式如下：

其中，exp代表以e为底的指数函数，

为可学习的变换矩阵。

最后，对得到的第i帧的结点表示

和/>

使用图池得到帧级嵌入/>

和/>

其中，/>

和/>

分别是对V_p和V_e进行平均池化；对N帧嵌入进行堆叠得到视频帧的细粒度表示/>

并且/>

其中，V代表视频，l代表局部。

如图2所示，获得描述文本的全局表示和细粒度表示的具体过程包括：

首先，对第i个描述文本的词性信息构建角色图G_r＝(V_r,E_r,T_r)，第i个句子本身作为全局结点，动词和实体分别作为动作结点和实体结点，每个动作结点直接连接全局结点，而一个实体结点根据动作结点的词性信息与不同的动作结点连接，其中，V_r代表动词、实体、句子组成的结点，E_r代表角色图的边，T_r代表每个结点的类型，类型包括动词、实体或句子；

然后，对描述文本利用BERT模型提取描述文本的句子特征和词级特征，句子特征是将每个单词的语义信息按文本顺序拼接，得到有上下文的句子语义信息；词级特征是每个单词的语义信息；对句子特征利用全连接层和双向长短期记忆网络得到句子级嵌入l_c，对词级特征利用非线性投影初始化动词和实体结点，计算公式如下：

其中，

代表角色图的第i个初始化结点，/>

为映射矩阵，/>

为第i个结点的词级特征；

然后，基于描述文本的词性分析结果更新角色图结点，计算公式如下：

其中，

代表角色图中第i个结点在图神经网络的第l层的更新，/>

表示角色图中第i个结点的邻域点在图神经网络第l层的更新；/>

为嵌入矩阵，Y代表动作结点数量，Z代表实体结点数量，/>

为变换矩阵，t_r,i为T_r中的第i个结点的类型，W_r1[t_r,i,:]代表W_r的第t_r,i行，/>

代表乘法操作，ReLU(·)是激活函数，N_i代表角色图中结点i的邻域，/>

为注意力系数，计算公式如下：

其中，exp代表以e为底的指数函数，

为可学习的变换矩阵。

然后，对S个描述文本的句子结点表示进行堆叠，得到描述文本的全局表示

对动作结点和实体结点使用平均图池得到细粒度语言嵌入/>

(即进行平均池化)，对其进行堆叠得到描述文本的细粒度表示/>

其中，L代表描述文本，l代表局部，g代表全局。

在S5中，将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题特征即问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中，获得基于问题的视觉表示和基于视频的文本表示。

根据本发明实施例，如图3所示，将视频帧的全局表示和细粒度表示作为结点构造基于图神经网络的视觉图G_V，将描述文本的全局表示和细粒度表示作为结点构造基于图神经网络的语言图G_L，并对视觉图的结点进行编码，得到视觉图编码

对语言图的结点进行编码，得到语言图编码/>

其中N代表视频帧数量，S代表描述文本的数量。

然后，将视觉图编码V′和问题特征即问题的词嵌入向量Q分别与语言图编码L′合并编码，利用两个单层前馈网络将视频表示和问题表示映射到相同的维度d′，得到编码后的视频表示

和问题表示/>

计算公式如下：

其中，FFN(·)是单层前馈网络，其计算公式如下：

FFN(X)＝WX^Τ+b(12)

其中，X代表任意一个矩阵，它包含n行m列个元素，W为权重矩阵，b为偏置向量。

然后，对视频表示V₁应用同模态注意力机制得到同模态下的视频编码

应用跨模态注意力机制得到跨模态下的视频编码/>

对问题表示Q₁应用同模态注意力机制得到同模态下的问题编码/>

应用跨模态注意力机制得到跨模态下的问题编码/>

计算公式如下：

其中，V_v、Q_v、K_v是V₁经过线性变换得到的，计算公式如下：

/>

其中，

是变换矩阵。

V_q、Q_q、K_q是Q₁经过线性变换得到的，计算公式如下：

其中，

是变换矩阵。

softmax(·)是归一化函数，计算公式如下：

其中，x代表任意一个向量，它包含n个元素，分别是x₁,...,x_n，x_i和x_j分别代表向量x中的第i个和第j个元素，exp(·)代表以e为底的指数函数。

然后，将视频编码V_s和V_d融合，将问题编码Q_s和Q_d融合交互，得到视频表示

和问题表示Q₂ ^{(W+S+1)×d′}，计算公式如下：

其中，sigmoid(·)是激活函数，FFN(·)是单层前馈网络，sigmoid(·)计算公式如下：

其中，x代表任意一个向量，它包含n个元素，分别是x₁,...,x_n，x_i和x_j分别代表向量x中的第i个和第j个元素。

最后，利用上下文注意力机制得到视频表示V₂和问题表示Q₂的相似矩阵

利用相似矩阵A_s得到融合权重/>

和/>

计算公式如下：

其中，A_s,r和A_s,c是利用softmax函数分别对相似矩阵A_s的行与列进行归一化得到的。

得到融合权重后，利用单层前馈网络生成基于问题的视觉表示

和基于视频的文本表示/>

计算公式如下：

在S6中，根据基于问题的视觉表示和基于视频的文本表示获取预测的视频问答答案。

根据本发明实施例，将基于问题的视觉表示V_q和基于视频的文本表示Q_v拼接，得到问题参与的视觉表示H＝[h₁,h₂,...,h_n]，且h_i＝[V_q,i；Q_v,i]；对问题特征即问题的词嵌入向量通过双向长短期记忆网络得到问题表示Q′，将视觉表示H和问题表示Q′输入到分类器计算每种答案的置信度，其中分类器例如可以是利用朴素贝叶斯算法设计的分类器；最后，从答案中选择置信度最高的答案作为预测的答案。

进一步通过实验验证本发明的技术效果。

本发明在MSRVTT-QA数据集上进行了实验验证，该类数据集包含的10000个视频剪辑以及243680个问答对，涉及20个类别，每个视频剪辑包含20句英文的描述文本，所有描述文本中大约有29000个独特的单词。其中训练集包含6513个视频，验证集包含497个视频，测试集包含2990个视频。

该数据集中问题类型为开放式问题，预定义的答案集大小为1000，包含五种问题类型：是什么、是谁、如何、何时和在哪里。视频剪辑包含了很多的人物活动和场景的信息，具有丰富的动态性和现实的社会互动性。

实验测试结果如表1所示，本发明方法表示为MgCm-VQA，结果的度量为准确率(％)：

表1本发明所提方法的测试结果

方法名	测试结果
		MgCm-VQA	59.44

为了验证方法中步骤S4的有效性，设计了六个消融实验方案并进行消融测试，六个消融实验方案其具体如下，所得的测试结果如表2所示，结果的度量为准确率(％)：

MgCm-VQA_V：表示测试过程中仅依据视觉表示，通过视觉表示与问题特征的交互生成基于问题的视觉表示，再根据视觉表示预测答案。

MgCm-VQA_L：表示测试过程中仅依据描述文本的表示，通过描述文本的表示与问题特征的交互生成文本表示，再根据文本表示预测答案。

MgCm-VQA_g：表示测试过程中仅生成视频与描述文本的全局表示，通过多模态注意力融合推理模块生成基于问题的视觉表示和基于视频的文本表示，再预测答案。

MgCm-VQA_l：表示测试过程中仅生成视频与描述文本的细粒度表示，通过多模态注意力融合推理模块生成基于问题的视觉表示和基于视频的文本表示，再预测答案。

MgCm-VQA_f：表示测试过程中将图的编码用全连接层替换图神经网络，生成视频帧和描述文本的全局表示和细粒度表示，再预测答案。

MgCm-VQA：表示测试过程中不做任何修改，使用MgCm-VQA进行测试。

表2本发明针对所提方法的步骤S4的消融测试结果

方法名	测试结果
		MgCm-VQA_V	40.63
MgCm-VQA_L	51.26
		MgCm-VQA_g	49.58
MgCm-VQA_l	51.85
		MgCm-VQA_f	52.96
MgCm-VQA	59.44

根据实验结果分析，本发明很好的提高了答案预测的准确性。

本发明将视频提取视频帧与目标特征，对描述文本进行词性分析，获取其词性信息，对问题提取句子级的问题特征，利用对视频和描述文本的图神经网络获取多粒度的视频和描述文本表示，利用图神经网络融合不同粒度的表示，并利用注意力模型来捕获同模态的视频、同模态的文本、以及跨模态的视频和文本之间的注意信息，生成基于问题的视觉表示和基于视频的文本表示，自适应地融合基于问题的视觉表示和基于视频的文本表示，生成答案。相比于一般视频问答方案，本发明在不同的语义层次上理解视频内容，提取多粒度的视频和描述文本表示，并利用注意力的方式生成基于问题的视觉表示和基于视频的文本表示，通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。

本发明另一实施例还提供一种基于多粒度的跨模态交互框架解决视频问答的系统，该系统包括：

融合推理模块，其配置成将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题特征即问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中，获得基于问题的视觉表示和基于视频的文本表示；

本实施例中，优选地，所述编码模块中获得视频帧的全局表示和细粒度表示的具体过程包括：

其中，

其中，

表示注意力系数；

其中，

为注意力系数；/>

本实施例所述一种基于多粒度的跨模态交互框架解决视频问答的系统的功能可以由前述一种基于多粒度的跨模态交互框架解决视频问答的方法说明，因此本实施例未详述部分，可参见以上方法实施例，在此不再赘述。

应当注意，尽管在上文详细描述中提及了若干单元、模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S1中利用预训练的ResNet模型提取视频帧特征，利用预训练的FasterR-CNN模型提取视频帧的目标特征。

3.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S2中利用SRL工具包分析描述文本的词性，获取词性分析结果，所述词性分析结果包括每个描述文本对应的动词和实体。

4.根据权利要求1所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S3中利用预训练的wordembedding模型提取问题的特征。

5.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S4中获得视频帧的全局表示和细粒度表示的具体过程包括：

其中，

其中，

表示注意力系数；

6.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S4中获得描述文本的全局表示和细粒度表示的具体过程包括：

其中，

为注意力系数；

在更新后，对多个描述文本的句子结点进行堆叠，得到描述文本的全局表示；使用图池对动作结点和实体结点进行平均池化，得到细粒度语言嵌入；将多个描述文本的细粒度语言嵌入进行堆叠，得到描述文本的细粒度表示。

7.根据权利要求3所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S5中获得基于问题的视觉表示和基于视频的文本表示的具体过程包括：

8.根据权利要求7所述的一种基于多粒度的跨模态交互框架解决视频问答的方法，其特征在于，S6的具体过程包括：将基于问题的视觉表示V_q和基于视频的文本表示Q_v进行拼接，得到问题参与的视觉表示H；对问题的词嵌入向量Q通过双向长短期记忆网络得到问题表示Q′，将视觉表示H和问题表示Q′输入到分类器中计算每种答案的置信度；从答案中选择置信度最高的答案作为预测的答案。

9.一种基于多粒度的跨模态交互框架解决视频问答的系统，其特征在于，包括：

融合推理模块，其配置成将视频帧的全局表示和细粒度表示、描述文本的全局表示和细粒度表示、问题的词嵌入向量一同输入到预训练的基于注意力机制的多模态注意力融合推理模块中，获得基于问题的视觉表示和基于视频的文本表示；

10.根据权利要求9所述的一种基于多粒度的跨模态交互框架解决视频问答的系统，其特征在于，所述编码模块中获得视频帧的全局表示和细粒度表示的具体过程包括：

其中，

其中，

表示注意力系数；

其中，

为注意力系数；