CN110727824B

CN110727824B - 利用多重交互注意力机制解决视频中对象关系问答任务的方法

Info

Publication number: CN110727824B
Application number: CN201910965556.7A
Authority: CN
Inventors: 赵洲; 张品涵; 金韦克; 陈默沙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2022-04-01
Anticipated expiration: 2039-10-11
Also published as: CN110727824A

Abstract

本发明公开了一种利用多重交互注意力机制解决视频中对象关系问答任务的方法，包括如下步骤：针对于一段视频，获得帧级别视频特征；获得视频中对象的位置特征和外观特征；使用多重交互注意力机制，学习得到输入问题的表达；计算时空关系矩阵；使用多重交互注意力机制，学习得到针对问题的帧级别视频表达；使用多重交互注意力机制，学习得到与问题相关的对象关系表达；在之前得到的帧级别视频表达和对象关系表达基础上，获取问题的答案。相比于一般视频问答解决方案，本发明利用新型注意力机制，能够更准确地反映视频中对象的关系，产生更加贴切的答案。本发明在视频问答中所取得的效果相比于传统方法更好。

Description

利用多重交互注意力机制解决视频中对象关系问答任务的方法

技术领域

本发明涉及视频问答答案生成领域，尤其涉及一种利用多重交互注意力机制解决视频中对象关系问答任务的方法。

背景技术

视觉问答是一项利用计算机视觉和自然语言处理技术的重要任务。给定自然语言问题和参考视觉对象(例如图像或视频)，视觉问答的目标是自动地根据视觉内容回答问题。

在视频问答发展前，深度神经网络已经在图像问答领域取得了很大的成功，并且有了相对成熟的模型。视频问答可视为图像问答的延伸。然而，由于时间结构带来的复杂性，使视频问答变得更具挑战性，与图像问答相比，视频问答的研究发明相对较少。如何对视频的时间结构建模、如何处理视频信息的冗余以及如何获得多帧带来的信息，是目前视频问答领域面临的几大挑战。

现有方法主要关注时间注意力机制和记忆机制。Jang等人(Yunseok Jang,YaleSong,Youngjae Yu,Youngjin Kim,and Gunhee Kim.2017.Tgif-qa:Toward spatio-temporal reasoning in visual question answering.In IEEE Conference onComputer Vision and Pattern Recognition.2680–8.)提出了一种基于dual-LSTM的方法，同时应用空间注意力机制和时间注意力机制。Yu等人(Youngjae Yu,Hyungjin Ko,Jongwook Choi,and Gunhee Kim.2017.End-to-end concept word detection for videocaptioning,retrieval,and question answering.In IEEE Conference on ComputerVision and Pattern Recognition.3261–3269.)提出了一种高级别概念词检测器，它将视频作为输入，并生成一个概念词列表作为答案生成的有用语义先验。但是，上述大多数方法都依赖于RNN而不考虑对象之间的关系，无法有效过滤长视频中大量存在的冗余帧。本发明的目的在于解决现有技术中的问题，为了更好地获取视频中对象的关系，来对对象关系相关的问题做出回答。

发明内容

本发明提出了一种用于视频问答的新模型，称为多重交互网络(Multi-interaction network)。本发明所采用的具体技术方案是：

利用多重交互注意力机制解决视频中对象关系问答任务的方法，包括如下步骤：

S1：针对一段视频，利用残差神经网络，获得帧级别视频特征；

S2：利用Mask-RCNN，获得视频中对象的位置特征和外观特征；

S3：使用多重交互注意力机制，得到输入问题表达；

S4：根据步骤S2得到的视频中对象的位置特征，计算出视频中对象之间的相对关系向量，得到时空关系权重，进一步构建时空关系矩阵；

S5：在步骤S1得到的帧级别视频特征和步骤S3得到的输入问题表达的基础上，使用多重交互注意力机制，学习得到针对问题的帧级别视频表达；

S6：根据步骤S2得到的视频中对象的外观特征、步骤S3得到的输入问题表达和步骤S4得到的时空关系矩阵的基础上，使用多重交互注意力机制，得到与问题相关的对象关系表达；

S7：根据步骤S5得到的针对问题的帧级别视频表达和步骤S6得到的与问题相关的对象关系表达，获取针对视频所问问题的答案。

进一步的，所述步骤S1具体为：

针对一段视频，将该视频输入训练好的残差神经网络，输出帧级别视频特征

其中M^(f)代表视频的帧数，

代表视频第j帧的特征向量。

进一步的，所述步骤S2具体为：

针对一段视频，将该视频输入Mask-RCNN，输出视频中对象的位置特征

和外观特征

其中

和

分别表示视频中第i个对象的位置特征向量和外观特征向量，N是视频中检测到的对象数量；所述位置特征向量

是一个五维坐标，表示为(x_i,y_i,w_i,h_i,t_i)，其中x_i和y_i分别表示视频中第i个对象边界框中心点的横坐标和纵坐标，w_i和h_i分别表示视频中第i个对象边界框的宽度和高度，t_i表示视频中第i个对象所属帧的序号。

进一步的，所述步骤S3具体为：

使用预训练的GloVe模型，得到问题的词嵌入w＝(w₁,w₂,…,w_n)，其中n是问题的单词数，w_j是第j个单词对应的词向量；再将词嵌入中的每一个词向量w_j与对应的位置编码PE_j相加得到单词级别输入问题表达W＝(w₁+PE₁,w₂+PE₂,…w_n+PE_n)；所述位置编码计算方法如下：

其中PE_pos,i是位置编码PE_pos的第i个元素；pos是位置编码的位置信息，这里是词向量w_j的下标j；d_model是位置编码的维度，这里与词向量的维度相等；

将单词级别输入问题表达W同时作为问题通道中交互单元的Q和V输入，在交互单元中使用多重交互注意力机制，学习输入问题的表示；在进入前馈单元之前，交互单元的多头输出序列将被连接并被线性单元变换，再经过残差连接和层标准化后输入前馈单元；然后前馈单元通过ReLU激活函数将输入序列转换为两个线性投影，分别作为帧通道第二个交互单元的V输入和对象通道第二个交互单元的Q输入；在问题通道中经过前述处理后，得到输入问题表达；

所述多重交互注意力机制具体步骤如下，假设多头线性层的头数是1：

第一步，确定两个输入矩阵Q＝(q₁，q₂，...，q_i)和V＝(v₁，v₂，...，v_j)，其中

且

第二步，创建张量

来表示两个输入矩阵的每列之间的相互作用，张量K的每列

计算方式如下：

其中

表示逐元素乘法，q_i,

第三步，在张量K上使用卷积层，内核大小为s_q×s_v；在卷积运算期间，张量K将被分成不同的子张量

随着内核窗口的移动，得到不同的分段交互表示，形成张量P；

第四步，利用去卷积层将张量P恢复到原始大小(l_q×l_v×d_k)，因此，获得一个新的张量M，其中包含分段交互信息；

第五步，在张量K和M上使用与缩放点积注意力机制类似的求和方法对张量大小为d_k的维度进行压缩，分别得到逐元素权重矩阵

和逐段权重矩阵

第六步，忽略多头步骤和比例因子，多重交互注意力机制的最终输出由下式给出：

其中

W是可选的外部权重矩阵。

进一步的，所述步骤S4具体为：

根据视频中对象的位置特征，计算两两对象之间的相对关系向量；定义视频中第m个对象和第n个对象之间的相对关系向量(X_mn,Y_mn,W_mn,H_mn,T_mn)^T计算公式如下：

为使相对关系向量具有平移不变性和尺度变换不变性，分别计算相对关系向量中每个元素的位置编码，得到

五个高维向量，再将这五个高维向量拼接成单个特征向量，得到视频中第m个对象和第n个对象之间的特征向量

计算视频中第m个对象和第n个对象的时空关系权重

其中W_r是一个学习得到的参数向量；根据视频中所有对象之间的时空关系权重

两两对应，得到时空关系矩阵

其中

为时空关系矩阵W_R中第m行第n列的元素。

进一步的，所述步骤S5具体为：

将步骤S1得到的帧级别视频特征与位置编码相加，位置编码计算方法同S3，得到帧级别视频表达V，将V同时作为帧通道中N层堆栈中第一个交互单元的Q和V输入，在交互单元中使用多重交互注意力机制，学习视频的帧级别表示；第一个交互单元的多头输出序列将被连接并被线性单元变换，再经过残差连接和层标准化后，作为第二个交互单元的Q输入进入第二个交互单元，同时问题通道的输出作为第二个交互单元的V输入；第二个交互单元的多头输出序列将被连接并被线性单元变换，再经过残差连接和层标准化后输入前馈单元；然后对前馈单元的输出进行残差连接和层标准化处理，前馈到第一个交互单元；在帧通道中经过N次前述处理后，输出针对问题的帧级别视频表达。

进一步的，所述步骤S6具体为：

将视频中对象的外观特征与位置编码相加，将对象所属帧的序号t_i作为对象的位置，位置编码计算方法同S3，得到视频对象表达O，将O同时作为对象通道中N层堆栈中第一个交互单元的Q和V输入，并将步骤S4得到的时空关系矩阵作为外部权重矩阵，在交互单元中使用多重交互注意力机制，学习视频的对象关系表达；多重交互注意力机制的使用方法同S5，不同之处在于第一个交互单元的多头输出作为第二个交互单元的V输入，问题通道的输出作为第二个交互单元的Q输入；在对象通道中经过N次前述处理后，输出与问题相关的对象关系表达。

进一步的，所述步骤S7具体为：

将针对问题的帧级别视频表达和与问题相关的对象关系表达连接，输入解答模块，在解答模块中有三种解码器用于完成四种不同任务：

对于多项选择问题，使用线性回归函数，将视频编码器的输出F_vo作为其输入，并输出每个答案候选的得分：

其中W_s是可训练权重，使用正确答案的分数s_p和不正确答案的分数s_n之间的折页损失函数max(0,1+s_n-s_p)来优化模型，该解码器可用于解决重复动作和状态转换任务；

对于开放式的数字类问题，使用线性回归函数，将视频编码器的输出F_vo作为其输入，并输出整数值答案：

其中W_n是权重参数，b是偏置，Round(·)是舍入函数，并且在正确答案和预测值之间采用L2损失函数来训练模型，该解码器用于解决重复计数任务；

至于开放式的词语类问题，线性层将视频编码器的输出维度转换为答案词汇维度，然后使用softmax函数在词汇表上生成答案分布：

其中W_w是权重参数，b是偏置，模型使用交叉熵损失函数进行训练，这种类型的解码器用于解决帧问答任务。

本发明具备的有益效果：

以往的视频问答模型大多依赖RNN以获取视频的时间结构，然而受限于RNN的固有结构，对于视频这种变长序列，RNN只能获取定长信息，而且无法有效过滤视频中大量存在的冗余帧；另外RNN还面临梯度消失的问题，无法获得长距离信息，虽然LSTM和GRU在这方面有所改进，但并未完全解决问题。

(1)本发明使用位置编码和新型注意力机制——多交互注意力机制对视频的时间结构进行建模，可以获得更贴近问题的视频表达，减小无关信息的影响，从而更好地获取长距离信息、多帧信息，比如视频中出现的动作以及对象状态的变换等；

(2)本发明将对象关系加入模型的计算中，获取了更细粒度的时间空间信息，比如视频中对象之间的潜在关系和对象的移动等，提升模型回答对象关系相关问题的准确度。

附图说明

图1是本发明所使用的对于视频问答问题的多重交互注意力网络的整体示意图；其中，(a)为多重交互注意力网络的整体结构，(b)为普通的多头注意力机制，(c)为本发明使用的新型注意力机制--多重交互注意力机制。

具体实施方式

下面结合附图对本发明做进一步阐述和说明。

编码器。如图1(a)所示，模型的编码器由三个通道组成：帧通道，问题通道和对象通道。帧通道采用残差神经网络得到的帧级别视频特征作为输入序列。问题频道采用问题的词嵌入作为输入序列。对象通道采用对象的外观特征作为输入序列。对于每个通道，我们再次使用位置编码技术将顺序信息添加到序列中。编码器主要由两种类型的编码层组成。对于每一层，还有两种子单元：交互单元和前馈单元。

问题通道的交互单元使用多重交互机制，来更好地学习输入问题的表示。在进入前馈单元之前，交互单元的多头输出序列将被连接并被线性单元变换。然后，前馈单元通过ReLU激活函数将输入序列转换为两个线性投影。

对于帧通道和对象通道中的编码层，它在交互单元和前馈单元之间增加了一个额外的交互单元，该交互单元以问题通道的输出作为输入序列。每个子单元周围都应用了残差连接和层标准化，并且帧通道和对象通道都有N个编码层堆栈。编码器的最终输出是帧通道输出和对象通道输出的连接。

解答模块。在解答模块总共有三个解码器设计用于完成四种不同任务：

其中W_s是可训练权重，使用正确答案的分数s_p和不正确答案的分数s_n之间的折页损失函数max(0,1+s_n-s_p)，来优化模型。该解码器可用于解决重复动作和状态转换任务。

对于开放式的数字类问题，它类似于多项选择。使用线性回归函数，将视频编码器的输出F_vo作为其输入，但是，这次输出整数值答案：

其中其中W_n是权重参数，b是偏置，Round()是舍入函数。并且在正确答案和预测值之间采用L2损失函数来训练模型。该解码器用于解决重复计数任务。

至于开放式的词语类问题，它可以被视为分类问题。线性层将视频编码器的输出维度转换为答案词汇维度，然后使用softmax函数在词汇表上生成答案分布。可以表示为：

其中，W_w是权重参数，b是偏置。模型使用交叉熵损失函数进行训练。这种类型的解码器专为帧问答任务而设计。

多重交互注意力机制。在介绍多重交互注意力机制前先对其原型多头注意力机制进行简要介绍。如图1(b)所示，多头注意力机制有两个输入序列，为方便起见，假设多头线性层的头数是1。在线性投影之后，我们得到两个输入矩阵Q＝(q₁，q₂，...，q_i)和V＝(v₁，v₂，...，v_j)，其中

且

然后，我们创建张量

来表示两个输入矩阵的每列之间的相互作用。在图1(b)中，相互作用的列用斑点标记。张量K的每列

计算方式如下：

其中

表示逐元素乘法，q_i,

通过将张量K的d_k维压缩，我们可以得到权重矩阵

这里使用与缩放点积注意力机制类似的求和方法对张量进行压缩。还可以增加一个可选的外部权重矩阵，以便与一些附加信息结合使用。在我们的模型中，它是时空关系矩阵W_R。忽略多头步骤和比例因子，最终输出由下式给出：

O＝softmax(W_E⊙W_R)V

其中⊙表示逐元素乘法，

如图1(c)所示。基于上述结构，我们添加了另一个获取分段交互的过程，其中包括两个步骤。

第一步中，在张量K上使用卷积层，内核大小为s_q×s_v。在卷积运算期间，张量K将被分成不同的子张量

在图中用黑色标记。根据前面的描述，K中的每列表示问题和视频序列之间的一个元素级别的交互特征。因此，每个K′可以被视为问题序列片段和视频序列片段之间的元素交互特征集。通过对K′的卷积运算(输入和输出通道都是d_k)，获得这种分段交互的单个矢量表示。随着内核窗口的移动，得到不同的分段交互表示，形成张量P。第二步中，利用去卷积层将张量P恢复到原始大小(l_q×l_v×d_k)。因此，获得一个新的张量M，其中包含分段交互信息。·

通过在张量K和M上使用上述相同的压缩操作，我们得到逐元素权重矩阵

和逐段权重矩阵

忽略多头步骤和比例因子，多交互的最终输出由下式给出：

O＝softmax((W_E+W_S)⊙W_R)V

其中⊙表示逐元素乘法，

利用多重交互注意力机制解决视频中对象关系问答任务的方法，具体步骤如下：

步骤一、针对于一段视频，利用残差神经网络，获得帧级别视频特征。利用Mask-RCNN，获得视频中对象的位置特征和外观特征。所有对象的外观特征

位置特征

N是视频中检测到的对象数量。具体来说，f_A中的每个外观特征都是从训练好的模型中获得的典型高维向量，f_L中的每个位置特征都是一个五维坐标，表示为(x_n,y_n,w_n,h_n,t_n)，前四个维度(x_n,y_n,w_n,h_n)是对象边界框中心点坐标以及宽高，最后一个维度是对象所属帧的序号。

步骤二、使用多重交互注意力机制，学习得到输入问题的表达。具体实现方式见多重交互注意力机制的介绍。

步骤三、之前得到的视频中对象位置特征的基础上，计算出时空关系矩阵。给定两个对象m和n的位置特征向量

和

定义他们之间的相对关系向量(X_mn,Y_mn,W_mn,H_mn,T_mn)如下：

为使相对关系向量具有平移不变性和尺度变换不变性，利用位置编码，将这个五维向量使用不同频率的正弦余弦函数嵌入到高维表示中，得到五个高维向量，再将这五个高维向量组合成单个特征向量

之后m和n的时空关系权重就可以用下式计算：

这里的W_r是一个参数向量。计算好所有对象之间的关系权重后，我们就能得到时空关系矩阵W_R。

步骤四、在帧级别视频表达和问题表达基础上，使用多重交互注意力机制，学习得到针对问题的帧级别视频表达。详见编码器的介绍。

步骤五、在时空关系矩阵、视频对象表达和问题表达的基础上，使用多重交互注意力机制，学习得到与问题相关的对象关系表达。详见编码器的介绍。

步骤六、在之前得到的帧级别视频表达和对象关系表达基础上，获取针对于视频所问问题的答案。详见解答模块的介绍。

实施例

本发明主要在TGIF-QA数据集上进行应用。TGIF-QA数据集有两个版本，我们使用的是最新版本。TGIF-QA数据集包括三种具体任务：(1)计算给定动作的重复次数(Count)；(2)检测给定重复次数的动作(Action)；(3)识别状态转换(Trans)，例如，在某个动作状态之前或之后发生的事情。解决这些任务需要从视频内容出发进行全面的时间空间推理。除了这些任务外，还有标准的图像问答类型任务，称为帧问答(Frame)。对于帧问答任务，模型仍然需要在视频中的所有帧中找到最相关的帧内容以得到正确的答案。我们还在MSVD-QA数据集和MSRVTT-QA数据集上评估了我们的模型，这两个数据集中的问题有5种(what，who，how，when，where),这些问题没有涉及太多视频动态特征的内容。

本发明在数据集上实现细节如下：

1)对于TGIF-QA数据集中的视频，先从原视频中取样(30～60帧)，然后利用ResNet-152提取帧级别的视频特征。对于MSVD-QA数据集和MSRVTT-QA数据集，保持视频长度与原论文一致(20帧)，然后利用VGG网络提取帧级别的视频特征。

2)用预训练的Mask R-CNN模型中提取视频中所有对象的位置特征和外观特征，并将每帧的前三个对象作为该帧的主要对象。

3)将初始学习率设置为0.002，并采用预热机制，将学习率设置为在前几个时期逐渐增加，然后在训练期间逐渐减少。在每个单元之后应用层归一，丢失率为0.1。对于训练时，使用adam优化器来优化模型。

下面简述评估指标。在TGIF-QA数据集上，对于状态转换、重复动作和帧问答三类问题，使用分类准确度(ACC)作为评估度量，该数值越高模型准确度越高；对于重复计数的任务，将实际计数值和预测的整数值之间的均方误差(MSE)用作评估度量，该数值越低模型效果越好。在MSVD-QA数据集和MSRVTT-QA数据集上，使用分类准确度(ACC)作为评估度量，该数值越高模型准确度越高。按照具体实施方式中描述的步骤，将所得的实验结果和其他模型对比，得到表1-3：

表1 TGIF-QA数据集实验结果

表2 MSVD-QA数据集实验结果

表3 MSRVTT-QA数据集实验结果

以下给出对比的其他模型出自的文献：

文献1：Yunseok Jang,Yale Song,Youngjae Yu,Youngjin Kim,and GunheeKim.2017.Tgif-qa:Toward spatio-temporal reasoning in visual questionanswering.In IEEE Conference on Computer Vision and Pattern Recognition.2680–8.

文献2：Youngjae Yu,Hyungjin Ko,Jongwook Choi,and Gunhee Kim.2017.End-to-end concept word detection for video captioning,retrieval,and questionanswering.In IEEE Conference on Computer Vision and Pattern Recognition.3261–3269.

文献3：Mengye Ren,Ryan Kiros,and Richard Zemel.2015.Exploring modelsand data for image question answering.In Advances in Neural InformationProcessing Systems.2953–2961.

文献4：Akira Fukui,Dong Huk Park,Daylen Yang,Anna Rohrbach,TrevorDarrell,and Marcus Rohrbach.2016.Multimodal compact bilinear pooling forvisual question answering and visual grounding.In Conference on EmpiricalMethods in Natural Language Processing.

文献5：Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.2016.Deepresidual learning for image recognition.In IEEE Conference on Computer Visionand Pattern Recognition.770–778.

文献6：Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,andManohar Paluri.2015.Learning spatiotemporal features with 3d convolutionalnetworks.In Proceedings of the IEEE international conference on computervision.4489–4497.

文献7：Jiyang Gao,Runzhou Ge,Kan Chen,and Ram Nevatia.2018.Motion-appearance co-memory networks for video question answering.In IEEE Conferenceon Computer Vision and Pattern Recognition.

文献8：Lianli Gao,Pengpeng Zeng,Jingkuan Song,Yuanfang Li,Wu Liu,TaoMei,and Hengtao Shen.2019.Structured Two-stream Attention Network for VideoQuestion Answering.In AAAI Conference on Artificial Intelligence.

文献9：Dejing Xu,Zhou Zhao,Jun Xiao,Fei Wu,Hanwang Zhang,Xiangnan He,and Yueting Zhuang.2017.Video question answering via gradually refinedattention over appearance and motion.In ACM International Conference onMultimedia.1645–1653.

VIS+LSTM(文献3)是一种以基于图像的方法，它利用LSTM将图像和文本特征结合。利用文献1所述的两种方法：aggregate(aggr)和average(avg)，可以将VIS+LSTM应用于视频问答；VQA-MCB(文献4)也是一种基于图像的方法，它利用了多模态双线性池化和空间注意力机制并通过文献1所述的两种方法进行调整以用于视频问答；CT-SAN(文献2)是一个基于视频的模型，它使用概念词检测器来生成有用的语义先验，这答案生成有很大帮助；ST方法(文献1)是Jang等人提出的视频问答方法，它利用空间注意力机制和时间的注意力机制来解决视频问答，在表1中，“SP”表示空间注意力机制，“TP”表示时间注意力机制，“(R+C)”表示使用ResNet-152(文献5)和C3D(文献6)，“(R+F)”表示使用ResNet-152(文献5)和FlowCNN(文献7)；GR-ATT(文献9)是Xu等人在构建MSVD-QA和MSRVTT-QA数据集的同时提出的视频QA模型；Co-Memory Network(文献7)由Gao等人提出，它采用co-memory机制来获取运动和外观信息的深层交互；我们还将我们的方法与最先进的Structured Two-streamAttention Network(STA)(文献8)进行比较，该方法利用结构化分段组件来推断视频中的长程时间结构并使用双流注意力机制来增强视频和问题之间的交互。

表1显示了本发明和其他方法在TGIF-QA数据集上的性能。如表1所示，最新的STA模型在重复动作，状态转换和帧问答任务方面取得了很大的进步，但是，本发明比STA模型性能更加优越，特别是在状态转换任务上。对于重复计数任务，虽然我们模型的均方误差(MSE)高于Co-Memory Network模型，但它仍然低于STA模型。上述实验结果表明了本发明的有效性。

为了进一步验证我们方法的一般性和有效性，我们还将本发明与MSVD-QA和MSRVTT-QA数据集上的STA模型进行了比较。如表2和表3所示，STA模型比GR-ATT模型表现更好，我们的模型仍然优于STA模型。这些事实证明了我们的模型在不同QA类型和数据集上的一般性和有效性。本发明在应用例所用实验集中已经达到了目前最先进的水平。

Claims

1.利用多重交互注意力机制解决视频中对象关系问答任务的方法，其特征在于，包括如下步骤：

S2：利用Mask-RCNN，获得视频中对象的位置特征和外观特征；

S3：使用多重交互注意力机制，得到输入问题表达；

且

第二步，创建张量

来表示两个输入矩阵的每列之间的相互作用，张量K的每列

计算方式如下：

其中

表示逐元素乘法，

和逐段权重矩阵

其中

W是可选的外部权重矩阵；

2.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法，其特征在于所述步骤S1具体为：

其中M^(f)代表视频的帧数，

代表视频第j帧的特征向量。

3.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法，其特征在于所述步骤S2具体为：

和外观特征

其中f_i ^l和f_i ^a分别表示视频中第i个对象的位置特征向量和外观特征向量，N是视频中检测到的对象数量；所述位置特征向量f_i ^l是一个五维坐标，表示为(x_i,y_i,w_i,h_i,t_i)，其中x_i和y_i分别表示视频中第i个对象边界框中心点的横坐标和纵坐标，w_i和h_i分别表示视频中第i个对象边界框的宽度和高度，t_i表示视频中第i个对象所属帧的序号。

4.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法，其特征在于所述步骤S3具体为：

将单词级别输入问题表达W同时作为问题通道中交互单元的Q和V输入，在交互单元中使用多重交互注意力机制，学习输入问题的表示；在进入前馈单元之前，交互单元的多头输出序列将被连接并被线性单元变换，再经过残差连接和层标准化后输入前馈单元；然后前馈单元通过ReLU激活函数将输入序列转换为两个线性投影，分别作为帧通道第二个交互单元的V输入和对象通道第二个交互单元的Q输入；在问题通道中经过前述处理后，得到输入问题表达。

5.如权利要求1所述的利用多重交互注意力机制解决视频中对象关系问答任务的方法，其特征在于所述步骤S4具体为：