CN113609355B

CN113609355B - 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质

Info

Publication number: CN113609355B
Application number: CN202110908494.3A
Authority: CN
Inventors: 孙广路; 梁丽丽; 李天麟; 张博伦; 谭涛
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-07-15
Filing date: 2021-08-09
Publication date: 2022-06-03
Anticipated expiration: 2041-08-09
Also published as: CN113609355A

Abstract

本发明提出一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质，属于计算机视觉和自然语言处理交叉领域。首先，计算物体空间特征和物体类别特征；其次，提取子视频的视觉运动特征；再其次，将物体空间、物体类别特征和视觉运动特征进行特征融合得到物体联合特征；再其次，对问题进行编码，获得问题特征，再其次，将物体联合特征和问题特征输入注意力模型中得到具有问题意识的联合特征；再其次，获得具有问题意识的物体关系特征；再其次，获得具有时序关系的视频特征；最后，得到融合特征生成答案。本发明解决了现有的视频问答系统不能有效地表示不同模态、同模态之间的关联程度和不能有针对性获取不同物体运动信息的问题。

Description

一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质

技术领域

本发明涉及一种视频问答方法，尤其涉及一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质，属于计算机视觉和自然语言处理交叉领域。

背景技术

近几年，随着计算机视觉与自然语言处理的发展，大量的视觉与语言研究课题得到了广泛的关注。视频问答是跨模态任务，它包括多种不同模态的数据信息，如视频模态、语音模态、文本模态。视频问答的任务可以描述为，已知一段视频和与视频内容相关的自然语言描述的问题，通过获取他们的视觉信息和语义信息，对问题进行答案预测的过程。当人们观看一段视频时，会通过视频展现的视觉信息来获取视频中出现的人物、物体、环境等，使人们对视频内容有了一个整体的了解。

目前的视频问答任务虽然解决了不同模态信息间的交互问题，但仍存在以下不足：(1)使用现有的神经网络建模视频中时-空间信息时，获得的时序特征不能有效地表示不同模态、同模态之间的关联程度；(2)通常情况下，视频中包含多个运动的物体，而目前模型不能有针对性的获取不同物体的运动信息，并且存在大量的冗余信息；(3)采用图卷积网络解决视频问答任务的方法中，他们根据物体信息构建图节点表示，确没有使用物体的位置、运动等信息。

在视频问答任务中，如何使获得的时序特征有效的表示不同模态和同模态之间的关联程度、有针对性的获取不同物体的运动信息，解决大量冗余的信息以及使用物体的位置和运动的信息构建图节点，是视频问答的关键和难点问题。本发明针对该问题，提出了一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明提供了一种基于动态注意力与图网络推理的视频问答系统，包括，物体空间特征和物体类别特征计算模块、视觉运动特征提取模块、物体联合特征获取模块、问题特征提取模块、问题意识联合特征获取模块、问题意识的物体关系特征获取模块、视频时序特征获取模块、多模态特征融合模块和答案生成模块；

所述物体空间特征和物体类别特征计算模块用于根据物体检测模型预测视频中物体标注框和类别标签，获得物体空间特征和物体类别特征；

所述视觉运动特征提取模块用于根据子视频对齐模型来获取时空维度相同的子视频，提取子视频的视觉运动特征，获得视觉运动特征；

所述物体联合特征获取模块用于将物体空间特征、物体类别特征和视觉运动特征进行融合，获得物体联合特征；

所述问题特征提取模块用于针对问题对问题进行编码，获得问题特征；

所述问题意识联合特征获取模块用于将物体联合特征与问题特征输入注意力模型中，获得具有问题意识的联合特征；

所述问题意识的物体关系特征获取模块用于构建具有问题意识的图卷积网络推理不同物体之间的复杂关系，获得具有问题意识的物体关系特征；

所述视频时序特征获取模块用于获得GRU解码阶段最后时刻的隐藏状态，将其作为具有时序关系的视频特征表示；

所述多模态特征融合模块用于将问题特征和具有时序关系的视频特征进行低秩双线性融合获得融合特征；

所述答案生成模块用于使用softmax函数计算生成答案。

一种基于动态注意力与图网络推理的视频问答方法，包括以下步骤：

S1.针对一段视频，根据物体检测模型预测视频中物体标注框和类别标签，来计算物体空间特征和物体类别特征；

S2.针对一段视频，根据子视频对齐模型来获取时空维度相同的子视频，提取子视频的视觉运动特征；

S3.对步骤S1所获得的物体空间特征和物体类别特征，对步骤S2所获得的视觉运动特征进行特征融合得到物体联合特征；

S4.针对问题，对问题进行编码，获得问题特征；

S5.对步骤S3所获得的物体联合特征和对步骤S4所获得的问题特征输入注意力模型中得到具有问题意识的联合特征；

S6.用步骤S5所获得的具有问题意识的联合特征，来初始化图卷积网络节点，构建具有问题意识的图卷积网络来推理不同物体之间的复杂关系，得到具有问题意识的物体关系特征；

S7.对步骤S6所获得的具有问题意识的物体关系特征，使用GRU模型进行编码，将最后时刻的隐藏状态作为具有时序关系的视频特征；

S8.对步骤S7所获得的具有时序关系的视频特征，步骤S4所获得的问题特征进行低秩双线性融合得到融合特征，并使用softmax生成答案。

优选的，步骤S1所述根据物体检测模型预测视频中物体标注框和类别标签，来提取物体空间特征和物体类别特征的具体方法是：采用目标检测模型Mask R-CNN检测出置信度得分最高的k个物体，根据其标注框和类别标签计算物体空间特征和物体类别特征；具体的计算过程如下：

a)计算物体空间特征：

F^s＝MLP(S)

其中，S＝{x，y，h，w}，x和y为物体在视频帧中的坐标，h和w为物体边框的高度和宽度；MLP()是浅层的前馈神经网络，

表示F^S在实数域

中的维度为d_s，下标s表示物体空间特征的标记；

b)计算物体类别特征：

F^L＝MLP(E^L)

其中，E^L为物体类别标签的词嵌入向量表示，

表示F^L在实数域

中的维度为d_l，下标l表示物体类别特征的标记。

优选的，步骤S2所述提出根据子视频对齐模型来获取物体时空维度相同的子视频，然后利用三维卷积模型C3D提取子视频的视觉运动特征；获取子视频的视觉运动特征的具体方法是：使用子视频对齐模型对检测到置信度得分最高的k个物体进行空间和时间对齐，得到k个物体的子视频集合S＝{sv_k|1≤k≤K}，其中，sv_k表示第k个物体的子视频，具体的计算过程如下：

a)计算物体图像的空间位置，则其中第i行j列像素点的坐标(x_i,y_j)计算方式如下：

其中，物体图像的左上角坐标原点为(0,0)，原图像的像素大小为(W，H)，双线性插值后的像素大小为(w，h)；

b)计算物体图像的空间像素点，点P(x,y)为计算得到的像素采样点，该点的数值由其最近的四个像素点的数值按距离远近作为权重共同决定；因此，利用与P点最近的像素点Q₁₁(x₁,y₁)、Q₁₂(x₁,y₂)、Q₂₁(x₂,y₁)和Q₂₂(x₂,y₂)进行计算，首先计算点R₁(x,y₁)和R₂(x,y₂)的像素值f(R₁)和f(R₂)，则公式如下：

再通过点R₁、R₂的像素值f(R₁)和f(R₂)来计算P点的像素值f(P)，则公式如下：

c)使用物体图像的时间对齐模型，将原本长度不确定的n帧物体图像序列转化为长度固定的具有m帧的物体子视频；

d)将子视频sv_k拆分成N个剪辑，得到包含N个剪辑的集合

其中

表示第k个子视频中的第n个剪辑，利用C3D计算剪辑的运动特征：

F^M＝C3D(C^sv)，

其中，

表示F^M在实数域

中的维度为d_m，下标m表示剪辑运动特征的标记，C^sv表示所有子视频的剪辑集合。

优选的，步骤S3所述针对步骤S1计算得到的物体空间特征F^S和物体类别特征F^L，针对步骤S2计算得到的视觉运动特征F^M进行特征融合得到物体联合特征F^J；具体的方法是：

F^J＝[F^S；F^L；F^M],

d_j＝d_m+d_s+d_l

其中[·；·；·]代表拼接融合操作，

表示F^J在实数域

中的维度为d_j，下标j表示物体联合特征的标记。

优选的，步骤S4所述对问题进行编码，获得问题特征，具体方法是：

a)针对一个问题Q＝{q₁,q₂,...,q_M}，对问题中的每个单词进行如下计算，得到词向量表示r_i：

p_i＝One-Hot(q_i)

r_i＝W_ep_i，i∈{1,2,...,M}

其中，One-Hot()表示独热编码，它将问题中的单词q_i转换成独热编码表示p_i，

为词嵌入矩阵，其中L为词汇表的长度，300是每一个单词q_i的维度；

a)使用双向门循环单元模型Bi-GRU对词向量组{r₁,r₂,...,r_M}进行如下编码：

其中，

表示正向GRU得到的隐状态序列，

表示反向GRU得到的隐状态序列，词向量组中i∈{1,2,....,M}；

b)将Bi-GRU模型最后时刻输出隐状态结果

和

进行拼接，得到问题特征：

其中，[，]表示拼接操作，F^Q表示问题特征，

表示F^Q在实数域

中的维度为d_q，下标q表示问题特征的标记。

优选的，步骤S5所述针对步骤S3计算得到的物体联合特征和步骤S4计算得到的问题特征输入注意力模型中得到具有问题意识的联合特征的具体的方法是：

a)计算问题特征F^Q与物体联合特征F^J的交互空间：

其中，

和

为可学习的权重矩阵，b^Q和b^J为偏置向量；

是实数域

中d_q×d_j的矩阵，

是实数域

中d_q×d_j的矩阵；

b)使用缩放点积函数计算问题特征与物体联合特征的相似度矩阵

公式如下：

其中,

为映射到交互空间的问题特征转置表示，d为缩放因子，softmax()为归一化函数；

c)利用相似度矩阵与物体联合特征相乘得到具有问题意识的联合特征，公式如下：

其中，

表示

在实数域

中的维度为d_j，下标j表示具有问题意识的联合特征的标记。

优选的，步骤S6所述得到具有问题意识的物体关系特征的具体的方法是：

a)计算图卷积网络的初始化节点：

A⁽¹⁾＝softmax(W₁X⁽⁰⁾(W₂X⁽⁰⁾)^T)

其中，A⁽¹⁾表示第一层图卷积网络的邻居矩阵，用具有问题意识的联合特征

初始化图的初始节点X⁽⁰⁾，W₁和W₂为映射矩阵，上标T表示矩阵的转置运算；

b)构建图卷积网络结构，对于第p层(1≤p≤P)图卷积网络的推理过程如下：

X^(p)＝A^(p)X^(p-1)W^(p)

其中，X^(p)为第p层图卷积网络的节点特征，A^(p)为通过第p-1层图卷积网络的节点特征X^(p-1)计算得到的第p层的邻接矩阵，W^(p)为第p层图卷积网络的权重参数；

c)对于第p层的邻接矩阵A^(p)，则根据第p-1层图卷积网络节点X^(p-1)与其自身的相似度来计算得到，公式如下：

A^(p)＝softmax(W₁X^(p-1 ₎(W₂X^(p-1)^T)

其中，W₁和W₂为映射矩阵，上标T表示矩阵的转置运算；

d)将初始节点特征X⁽⁰⁾与最后一层的节点特征X^(P)融合后得到GCN的输出，公式如下：

F^R+X^(P)+X⁽⁰⁾

其中，

为GCN生成的具有问题意识的物体关系特征，k表示检测出置信度得分最高的k个物体；将所有时间段的关系特征集合记为

F₁ ^R表示第一个GCN网络捕获第一时刻的物体关系特征；

步骤S7所述得到具有时序关系的视频特征的方法是：

h_t＝GRU(F_t ^R，h_t-1)，1≤t≤N

其中，h_t-1表示t-1时刻的隐藏状态特征，将最后时刻的隐藏状态h_N输出记为具有时序关系的视频特征

F^V在实数域

中的维度为d_v，下标v表示具有时序关系的视频特征的标记。

步骤S8所述使用softmax函数计算生成答案的具体方法是：

a)将具有时序关系的视频特征F^V与问题特征F^Q输入到低秩双线性融合MLB模型中，得到融合特征z：

z＝P^Tσ(U^TF^v⊙V^TF^Q)+b

其中P、U和V分别为三个可训练权重矩阵，b为偏置向量，σ为ReLU函数，⊙代表哈达玛积，上标T表示矩阵的转置操作；

b)使用softmax函数将融合特征z映射输出得分最高的答案类别

最终答案的计算公式如下：

其中，W_a是参数矩阵，b_a是偏置向量。

一种计算机，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现一种基于动态注意力与图网络推理的视频问答方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现一种基于动态注意力与图网络推理的视频问答方法。

本发明的有益效果如下：

本发明不同于已有的视频问答模型中视觉特征的提取方式，本发明通过提取视频的物体联合特征，加强对单个物体的运动信息的获取，去除与问题不相关的信息。本发明通过一种新的特征构成思路，在视觉运动特征中添加关于物体空间和类别信息，丰富视觉信息中的语义信息的同时能够与问题特征进行更好地结合。在图卷积网络引入注意力机制，图卷积网络在推理过程中可以逐渐积累到与问题相关的图节点信息，并加强物体运动特征之间的关系。本发明充分结合注意力机制和图卷积网络来推理视频中不同物体之间的复杂关系，有效提高了视频问答的准确率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一所述的系统结构示意图；

图2为本发明实施例二所述的方法流程示意图；

图3为本发明实施例二所述的双线性插值示意图；

图4为本发明实施例二所述的方法原理示意图；

图5为本发明解决视频问答任务的预测结果示例图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一：

参照图1说明本实施例，本实施例的一种基于动态注意力与图网络推理的视频问答系统，包括，物体空间特征和物体类别特征计算模块、视觉运动特征提取模块、物体联合特征获取模块、问题特征提取模块、问题意识联合特征获取模块、问题意识的物体关系特征获取模块、视频时序特征获取模块、多模态特征融合模块和答案生成模块；

所述答案生成模块用于使用softmax函数计算生成答案。

实施例二：

参照图2至图5说明本实施方式，本实施例的一种基于动态注意力与图网络推理的视频问答方法，包括以下步骤：

具体的，预测视频中物体标注框和类别标签，来提取物体空间特征和物体类别特征的具体方法是：采用目标检测模型Mask R-CNN检测出置信度得分最高的k个物体，根据其标注框和类别标签计算物体空间特征和物体类别特征；具体的计算过程如下：

a)计算物体空间特征：

F^s＝MLP(S),

表示F^S在实数域

中的维度为d_s，下标s表示物体空间特征的标记；

b)计算物体类别特征：

F^L＝MLP(E^L),

其中，E^L为物体类别标签的词嵌入向量表示，

表示F^L在实数域

中的维度为d_l，下标l表示物体类别特征的标记。

具体的，根据子视频对齐模型来获取物体时空维度相同的子视频，然后利用三维卷积模型C3D提取子视频的视觉运动特征；获取子视频的视觉运动特征的具体方法是：使用子视频对齐模型对检测到置信度得分最高的k个物体进行空间和时间对齐，得到k个物体的子视频集合S＝{sv_k|1≤k≤K}，其中，sv_k表示第k个物体的子视频，具体的计算过程如下：

d)将子视频sv_k拆分成N个剪辑，得到包含N个剪辑的集合

其中

F^M＝C3D(C^sv),

其中，

表示F^M在实数域

具体的，将物体空间特征F^S、物体类别特征F^L和视觉运动特征F^M进行特征融合得到物体联合特征F^J；

具体的，得到物体联合特征的具体方法是：

F^J＝[F^s；F^L；F^M],

d_j＝d_m+d_s+d_l

其中[·；·；·]代表拼接融合操作，

表示F^J在实数域

中的维度为d_j，下标j表示物体联合特征的标记。

S4.针对问题，对问题进行编码，获得问题特征；

具体的，对问题进行编码，获得问题特征,具体方法是：

a)针对一个问题Q＝{q₁,q₂,...,q_M}，对问题中的每个单词进行如下计算，得到词向量表示x_i：

p_i＝One-Hot(q_i)

r_i＝W_ep_i，i∈{1,2,...,M}

其中，One-Hot()表示独热编码，它将一个单词q_i转换成独热编码表示p_i，

为词嵌入矩阵，其中L为词汇表的长度，300是每一个单词q_i的维度。

其中，

表示正向GRU得到的隐状态序列，

表示反向GRU得到的隐状态序列、词向量组中i∈{1,2,....,M}。

b)将Bi-GRU模型最后时刻输出隐状态结果

和

进行拼接，得到问题特征：

其中，[，]表示拼接操作，F^Q表示问题特征，

表示F^Q在实数域

中的维度为d_q，下标q表示问题特征的标记。S5.对步骤S3所获得的物体联合特征和对步骤S4所获得的问题特征输入注意力模型中得到具有问题意识的联合特征；

具体的，将物体联合特征和问题特征输入注意力模型中得到具有问题意识的联合特征；具体的，得到问题意识的联合特征的具体的方法是：

a)计算问题特征F^Q与物体联合特征F^J的交互空间：

其中，

和

为可学习的权重矩阵，b^Q和b^J为偏置向量；

是实数域

中d_q×d_j的矩阵，

是实数域

中d_q×d_j的矩阵；

公式如下：

其中，

为映射到交互空间的问题特征转置表示，d为缩放因子，softmax()为归一化函数。

其中，

表示

在实数域

中的维度为d_j，下标j表示具有问题意识的联合特征的标记。

a)具体的，得到具有问题意识的物体关系特征的具体的方法是：计算图卷积网络的初始化节点：

A⁽¹⁾＝softmax(W₁X⁽⁰⁾(W₂X⁽⁰⁾)^T)

X^(p)＝A^(p)X^(p-1)W^(p)

其中，X^(p)为第p层图卷积网络的节点特征，W^(p)为通过第p-1层图卷积网络的节点特征X^(p-1)计算得到的第p层的邻接矩阵，W^(p)为第p层图卷积网络的权重参数；

A^(p)＝softmax(W₁X^(p-1)(W₂X^(p-1))^T)

其中，W₁和W₂为映射矩阵，上标T表示矩阵的转置运算；

F^R＝X^(P)+X⁽⁰⁾

其中，

为GCN生成的具有问题意识的物体关系特征，k表示检测出置信度得分最高的k个物体。本专利提出一种基于动态注意力与图网络推理的视频问答系统，该系统由N个卷积神经网络GCN组成，来捕获视频在不同时间段中物体关系特征，最终，将所有时间段的关系特征集合记为

F₁ ^R表示第一个GCN网络捕获第一时刻的物体关系特征。

具体的，使用GRU模型对其进行编码表示，得到具有时序关系的视频特征的方法是：

h_t＝GRU(F_t ^R，h_t-1)，1≤t≤N

F^V在实数域

中的维度为d_v，下标v表示具有时序关系的视频特征的标记。

具体的，生成答案的具体方法是：

z＝P^Tσ(U^TF^v⊙V^TF^Q)+b

b)使用softmax函数将融合特征z映射输出得分最高的答案类别

最终答案的计算公式如下：

其中，W_a是参数矩阵，b_a是偏置向量。

对本发明提出的方法进行实验分析：

在视频问答数据集MSVD-QA数据集上对本发明提出的模型进行实验分析。

MSVD-QA数据集是基于微软研究视频描述语料库采用自动生成方法得到的数据集，该数据集的问题类型是开放式问题。MSVD-QA数据集总共有1970个视频片段和50,505对问题答案。MSVD-QA数据集是一个包含人们日常生活视频为主的数据集。

本发明将MSVD-QA数据集划分为训练集占视频总数的61％，验证集的数量占视频总数的13％，测试集的数量占视频总数的26％。

使用Mask R-CNN提取物体特征，其特征维度为1024d。使用在Sport-1M数据集上预训练的C3D模型捕获物体的动态信息，将conv5b层的输出特征向量作为提取出的物体运动特征，其特征尺寸为1024d。对于问题，使用预训练的Glove模型提取问题的语义表示，每个单词的特征维度为300d。

为了客观地评价本发明的性能，按实施方式中描述的步骤，测试了本发明在MSVD-QA数据集上的性能，所得的实验结果的精确度能达到52.68％，相比于现有的方法提高了8.8％。

在视频问答数据集SVQA数据集上对本发明提出的模型进行实验分析。

SVQA数据集是一个强推理性视频问答数据集。该数据集视频由Unity3D工具生成。SVQA数据集利用固定的模板自动生成问题，共2000个视频和120K个问答对。

本发明将SVQA数据集划分为训练集占视频总数的65％，验证集的数量占视频总数的15％，测试集的数量占视频总数的20％。

为了客观地评价本发明的性能，按实施方式中描述的步骤，测试了本发明在SVQA数据集上的性能，所得的实验结果的精确度能达到77.6％，相比于现有的方法提高了5.4％。

本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。

所称处理器可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于动态注意力与图网络推理的视频问答系统，其特征在于，包括，物体空间特征和物体类别特征计算模块、视觉运动特征提取模块、物体联合特征获取模块、问题特征提取模块、问题意识联合特征获取模块、问题意识的物体关系特征获取模块、视频时序特征获取模块、多模态特征融合模块和答案生成模块；

所述问题意识的物体关系特征获取模块用于构建具有问题意识的图卷积网络推理不同物体之间的复杂关系，获得具有问题意识的物体关系特征，具体的方法是：

a)计算图卷积网络的初始化节点：

A⁽¹⁾＝softmax(W₁X⁽⁰⁾(W₂X⁽⁰⁾)^T)

X^(p)＝A^(p)X^(p-1)W^(p)

A^(p)＝softmax(W₁X^(p-1)(W₂X^(p-1))^T)

其中，W₁和W₂为映射矩阵，上标T表示矩阵的转置运算；

F^R＝X^(P)+X⁽⁰⁾

其中，

F₁ ^R表示第一个GCN网络捕获第一时刻的物体关系特征；

所述视频时序特征获取模块用于将问题意识的物体关系特征获取模块获得的具有问题意识的物体关系特征使用GRU模型进行编码，将最后时刻的隐藏状态作为具有时序关系的视频特征；

所述答案生成模块用于使用softmax函数计算生成答案。

2.一种基于动态注意力与图网络推理的视频问答方法，其特征在于，包括以下步骤：

S4.针对问题，对问题进行编码，获得问题特征；

S6.用步骤S5所获得的具有问题意识的联合特征，来初始化图卷积网络节点，构建具有问题意识的图卷积网络来推理不同物体之间的复杂关系，得到具有问题意识的物体关系特征，具体的方法是：

a)计算图卷积网络的初始化节点：

A⁽¹⁾＝softmax(W₁X⁽⁰⁾(W₂X⁽⁰⁾)^T)

X^(p)＝A^(p)X^(p-1)W^(p)

A^(p)＝softmax(W₁X^(p-1)(W₂X^(p-1))^T)

其中，W₁和W₂为映射矩阵，上标T表示矩阵的转置运算；

F^R＝X^(P)+X⁽⁰⁾

其中，

F₁ ^R表示第一个GCN网络捕获第一时刻的物体关系特征；

3.根据权利要求2所述的方法，其特征在于，步骤S1所述根据物体检测模型预测视频中物体标注框和类别标签，来提取物体空间特征和物体类别特征的具体方法是：采用目标检测模型Mask R-CNN检测出置信度得分最高的k个物体，根据其标注框和类别标签计算物体空间特征和物体类别特征；具体的计算过程如下：

a)计算物体空间特征：

其中，S＝{x，y，h，w }，x和y为物体在视频帧中的坐标，h和w为物体边框的高度和宽度；MLP()是浅层的前馈神经网络，

表示F^S在实数域

中的维度为d_s，下标s表示物体空间特征的标记；

b)计算物体类别特征：

其中，E^L为物体类别标签的词嵌入向量表示，

表示F^L在实数域

中的维度为d_l，下标l表示物体类别特征的标记。

4.根据权利要求3所述的方法，其特征在于，步骤S2所述提取子视频的视觉运动特征的具体方法是：使用子视频对齐模型对检测到置信度得分最高的k个物体进行空间和时间对齐，得到k个物体的子视频集合S＝{sv_k|1≤k≤K}，其中，sv_k表示第k个物体的子视频，具体的计算过程如下：

a)计算物体图像的空间位置，则其中第i行j列像素点的坐标(x_i，y_j)计算方式如下：

其中，物体图像的左上角坐标原点为(0，0)，原图像的像素大小为(W，H)，双线性插值后的像素大小为(w，h)；

b)计算物体图像的空间像素点，点P(x，y)为计算得到的像素采样点，该点的数值由其最近的四个像素点的数值按距离远近作为权重共同决定；因此，利用与P点最近的像素点Q₁₁(x₁，y₁)、Q₁₂(x₁，y₂)、Q₂₁(x₂，y₁)和Q₂₂(x₂，y₂)进行计算，首先计算点R₁(x，y₁)和R₂(x，y₂)的像素值f(R₁)和f(R₂)，则公式如下：