CN113609355B - 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 - Google Patents
一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 Download PDFInfo
- Publication number
- CN113609355B CN113609355B CN202110908494.3A CN202110908494A CN113609355B CN 113609355 B CN113609355 B CN 113609355B CN 202110908494 A CN202110908494 A CN 202110908494A CN 113609355 B CN113609355 B CN 113609355B
- Authority
- CN
- China
- Prior art keywords
- video
- features
- feature
- graph
- joint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,计算物体空间特征和物体类别特征;其次,提取子视频的视觉运动特征;再其次,将物体空间、物体类别特征和视觉运动特征进行特征融合得到物体联合特征;再其次,对问题进行编码,获得问题特征,再其次,将物体联合特征和问题特征输入注意力模型中得到具有问题意识的联合特征;再其次,获得具有问题意识的物体关系特征;再其次,获得具有时序关系的视频特征;最后,得到融合特征生成答案。本发明解决了现有的视频问答系统不能有效地表示不同模态、同模态之间的关联程度和不能有针对性获取不同物体运动信息的问题。
Description
技术领域
本发明涉及一种视频问答方法,尤其涉及一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。
背景技术
近几年,随着计算机视觉与自然语言处理的发展,大量的视觉与语言研究课题得到了广泛的关注。视频问答是跨模态任务,它包括多种不同模态的数据信息,如视频模态、语音模态、文本模态。视频问答的任务可以描述为,已知一段视频和与视频内容相关的自然语言描述的问题,通过获取他们的视觉信息和语义信息,对问题进行答案预测的过程。当人们观看一段视频时,会通过视频展现的视觉信息来获取视频中出现的人物、物体、环境等,使人们对视频内容有了一个整体的了解。
目前的视频问答任务虽然解决了不同模态信息间的交互问题,但仍存在以下不足:(1)使用现有的神经网络建模视频中时-空间信息时,获得的时序特征不能有效地表示不同模态、同模态之间的关联程度;(2)通常情况下,视频中包含多个运动的物体,而目前模型不能有针对性的获取不同物体的运动信息,并且存在大量的冗余信息;(3)采用图卷积网络解决视频问答任务的方法中,他们根据物体信息构建图节点表示,确没有使用物体的位置、运动等信息。
在视频问答任务中,如何使获得的时序特征有效的表示不同模态和同模态之间的关联程度、有针对性的获取不同物体的运动信息,解决大量冗余的信息以及使用物体的位置和运动的信息构建图节点,是视频问答的关键和难点问题。本发明针对该问题,提出了一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明提供了一种基于动态注意力与图网络推理的视频问答系统,包括,物体空间特征和物体类别特征计算模块、视觉运动特征提取模块、物体联合特征获取模块、问题特征提取模块、问题意识联合特征获取模块、问题意识的物体关系特征获取模块、视频时序特征获取模块、多模态特征融合模块和答案生成模块;
所述物体空间特征和物体类别特征计算模块用于根据物体检测模型预测视频中物体标注框和类别标签,获得物体空间特征和物体类别特征;
所述视觉运动特征提取模块用于根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征,获得视觉运动特征;
所述物体联合特征获取模块用于将物体空间特征、物体类别特征和视觉运动特征进行融合,获得物体联合特征;
所述问题特征提取模块用于针对问题对问题进行编码,获得问题特征;
所述问题意识联合特征获取模块用于将物体联合特征与问题特征输入注意力模型中,获得具有问题意识的联合特征;
所述问题意识的物体关系特征获取模块用于构建具有问题意识的图卷积网络推理不同物体之间的复杂关系,获得具有问题意识的物体关系特征;
所述视频时序特征获取模块用于获得GRU解码阶段最后时刻的隐藏状态,将其作为具有时序关系的视频特征表示;
所述多模态特征融合模块用于将问题特征和具有时序关系的视频特征进行低秩双线性融合获得融合特征;
所述答案生成模块用于使用softmax函数计算生成答案。
一种基于动态注意力与图网络推理的视频问答方法,包括以下步骤:
S1.针对一段视频,根据物体检测模型预测视频中物体标注框和类别标签,来计算物体空间特征和物体类别特征;
S2.针对一段视频,根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征;
S3.对步骤S1所获得的物体空间特征和物体类别特征,对步骤S2所获得的视觉运动特征进行特征融合得到物体联合特征;
S4.针对问题,对问题进行编码,获得问题特征;
S5.对步骤S3所获得的物体联合特征和对步骤S4所获得的问题特征输入注意力模型中得到具有问题意识的联合特征;
S6.用步骤S5所获得的具有问题意识的联合特征,来初始化图卷积网络节点,构建具有问题意识的图卷积网络来推理不同物体之间的复杂关系,得到具有问题意识的物体关系特征;
S7.对步骤S6所获得的具有问题意识的物体关系特征,使用GRU模型进行编码,将最后时刻的隐藏状态作为具有时序关系的视频特征;
S8.对步骤S7所获得的具有时序关系的视频特征,步骤S4所获得的问题特征进行低秩双线性融合得到融合特征,并使用softmax生成答案。
优选的,步骤S1所述根据物体检测模型预测视频中物体标注框和类别标签,来提取物体空间特征和物体类别特征的具体方法是:采用目标检测模型Mask R-CNN检测出置信度得分最高的k个物体,根据其标注框和类别标签计算物体空间特征和物体类别特征;具体的计算过程如下:
a)计算物体空间特征:
b)计算物体类别特征:
优选的,步骤S2所述提出根据子视频对齐模型来获取物体时空维度相同的子视频,然后利用三维卷积模型C3D提取子视频的视觉运动特征;获取子视频的视觉运动特征的具体方法是:使用子视频对齐模型对检测到置信度得分最高的k个物体进行空间和时间对齐,得到k个物体的子视频集合S={svk|1≤k≤K},其中,svk表示第k个物体的子视频,具体的计算过程如下:
a)计算物体图像的空间位置,则其中第i行j列像素点的坐标(xi,yj)计算方式如下:
其中,物体图像的左上角坐标原点为(0,0),原图像的像素大小为(W,H),双线性插值后的像素大小为(w,h);
b)计算物体图像的空间像素点,点P(x,y)为计算得到的像素采样点,该点的数值由其最近的四个像素点的数值按距离远近作为权重共同决定;因此,利用与P点最近的像素点Q11(x1,y1)、Q12(x1,y2)、Q21(x2,y1)和Q22(x2,y2)进行计算,首先计算点R1(x,y1)和R2(x,y2)的像素值f(R1)和f(R2),则公式如下:
再通过点R1、R2的像素值f(R1)和f(R2)来计算P点的像素值f(P),则公式如下:
c)使用物体图像的时间对齐模型,将原本长度不确定的n帧物体图像序列转化为长度固定的具有m帧的物体子视频;
优选的,步骤S3所述针对步骤S1计算得到的物体空间特征FS和物体类别特征FL,针对步骤S2计算得到的视觉运动特征FM进行特征融合得到物体联合特征FJ;具体的方法是:
优选的,步骤S4所述对问题进行编码,获得问题特征,具体方法是:
a)针对一个问题Q={q1,q2,...,qM},对问题中的每个单词进行如下计算,得到词向量表示ri:
pi=One-Hot(qi)
ri=Wepi,i∈{1,2,...,M}
a)使用双向门循环单元模型Bi-GRU对词向量组{r1,r2,...,rM}进行如下编码:
优选的,步骤S5所述针对步骤S3计算得到的物体联合特征和步骤S4计算得到的问题特征输入注意力模型中得到具有问题意识的联合特征的具体的方法是:
a)计算问题特征FQ与物体联合特征FJ的交互空间:
c)利用相似度矩阵与物体联合特征相乘得到具有问题意识的联合特征,公式如下:
优选的,步骤S6所述得到具有问题意识的物体关系特征的具体的方法是:
a)计算图卷积网络的初始化节点:
A(1)=softmax(W1X(0)(W2X(0))T)
b)构建图卷积网络结构,对于第p层(1≤p≤P)图卷积网络的推理过程如下:
X(p)=A(p)X(p-1)W(p)
其中,X(p)为第p层图卷积网络的节点特征,A(p)为通过第p-1层图卷积网络的节点特征X(p-1)计算得到的第p层的邻接矩阵,W(p)为第p层图卷积网络的权重参数;
c)对于第p层的邻接矩阵A(p),则根据第p-1层图卷积网络节点X(p-1)与其自身的相似度来计算得到,公式如下:
A(p)=softmax(W1X(p-1 )(W2X(p-1)T)
其中,W1和W2为映射矩阵,上标T表示矩阵的转置运算;
d)将初始节点特征X(0)与最后一层的节点特征X(P)融合后得到GCN的输出,公式如下:
FR+X(P)+X(0)
步骤S7所述得到具有时序关系的视频特征的方法是:
ht=GRU(Ft R,ht-1),1≤t≤N
步骤S8所述使用softmax函数计算生成答案的具体方法是:
a)将具有时序关系的视频特征FV与问题特征FQ输入到低秩双线性融合MLB模型中,得到融合特征z:
z=PTσ(UTFv⊙VTFQ)+b
其中P、U和V分别为三个可训练权重矩阵,b为偏置向量,σ为ReLU函数,⊙代表哈达玛积,上标T表示矩阵的转置操作;
其中,Wa是参数矩阵,ba是偏置向量。
一种计算机,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现一种基于动态注意力与图网络推理的视频问答方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现一种基于动态注意力与图网络推理的视频问答方法。
本发明的有益效果如下:
本发明不同于已有的视频问答模型中视觉特征的提取方式,本发明通过提取视频的物体联合特征,加强对单个物体的运动信息的获取,去除与问题不相关的信息。本发明通过一种新的特征构成思路,在视觉运动特征中添加关于物体空间和类别信息,丰富视觉信息中的语义信息的同时能够与问题特征进行更好地结合。在图卷积网络引入注意力机制,图卷积网络在推理过程中可以逐渐积累到与问题相关的图节点信息,并加强物体运动特征之间的关系。本发明充分结合注意力机制和图卷积网络来推理视频中不同物体之间的复杂关系,有效提高了视频问答的准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例一所述的系统结构示意图;
图2为本发明实施例二所述的方法流程示意图;
图3为本发明实施例二所述的双线性插值示意图;
图4为本发明实施例二所述的方法原理示意图;
图5为本发明解决视频问答任务的预测结果示例图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一:
参照图1说明本实施例,本实施例的一种基于动态注意力与图网络推理的视频问答系统,包括,物体空间特征和物体类别特征计算模块、视觉运动特征提取模块、物体联合特征获取模块、问题特征提取模块、问题意识联合特征获取模块、问题意识的物体关系特征获取模块、视频时序特征获取模块、多模态特征融合模块和答案生成模块;
所述物体空间特征和物体类别特征计算模块用于根据物体检测模型预测视频中物体标注框和类别标签,获得物体空间特征和物体类别特征;
所述视觉运动特征提取模块用于根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征,获得视觉运动特征;
所述物体联合特征获取模块用于将物体空间特征、物体类别特征和视觉运动特征进行融合,获得物体联合特征;
所述问题特征提取模块用于针对问题对问题进行编码,获得问题特征;
所述问题意识联合特征获取模块用于将物体联合特征与问题特征输入注意力模型中,获得具有问题意识的联合特征;
所述问题意识的物体关系特征获取模块用于构建具有问题意识的图卷积网络推理不同物体之间的复杂关系,获得具有问题意识的物体关系特征;
所述视频时序特征获取模块用于获得GRU解码阶段最后时刻的隐藏状态,将其作为具有时序关系的视频特征表示;
所述多模态特征融合模块用于将问题特征和具有时序关系的视频特征进行低秩双线性融合获得融合特征;
所述答案生成模块用于使用softmax函数计算生成答案。
实施例二:
参照图2至图5说明本实施方式,本实施例的一种基于动态注意力与图网络推理的视频问答方法,包括以下步骤:
S1.针对一段视频,根据物体检测模型预测视频中物体标注框和类别标签,来计算物体空间特征和物体类别特征;
具体的,预测视频中物体标注框和类别标签,来提取物体空间特征和物体类别特征的具体方法是:采用目标检测模型Mask R-CNN检测出置信度得分最高的k个物体,根据其标注框和类别标签计算物体空间特征和物体类别特征;具体的计算过程如下:
a)计算物体空间特征:
b)计算物体类别特征:
S2.针对一段视频,根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征;
具体的,根据子视频对齐模型来获取物体时空维度相同的子视频,然后利用三维卷积模型C3D提取子视频的视觉运动特征;获取子视频的视觉运动特征的具体方法是:使用子视频对齐模型对检测到置信度得分最高的k个物体进行空间和时间对齐,得到k个物体的子视频集合S={svk|1≤k≤K},其中,svk表示第k个物体的子视频,具体的计算过程如下:
a)计算物体图像的空间位置,则其中第i行j列像素点的坐标(xi,yj)计算方式如下:
其中,物体图像的左上角坐标原点为(0,0),原图像的像素大小为(W,H),双线性插值后的像素大小为(w,h);
b)计算物体图像的空间像素点,点P(x,y)为计算得到的像素采样点,该点的数值由其最近的四个像素点的数值按距离远近作为权重共同决定;因此,利用与P点最近的像素点Q11(x1,y1)、Q12(x1,y2)、Q21(x2,y1)和Q22(x2,y2)进行计算,首先计算点R1(x,y1)和R2(x,y2)的像素值f(R1)和f(R2),则公式如下:
再通过点R1、R2的像素值f(R1)和f(R2)来计算P点的像素值f(P),则公式如下:
c)使用物体图像的时间对齐模型,将原本长度不确定的n帧物体图像序列转化为长度固定的具有m帧的物体子视频;
S3.对步骤S1所获得的物体空间特征和物体类别特征,对步骤S2所获得的视觉运动特征进行特征融合得到物体联合特征;
具体的,将物体空间特征FS、物体类别特征FL和视觉运动特征FM进行特征融合得到物体联合特征FJ;
具体的,得到物体联合特征的具体方法是:
S4.针对问题,对问题进行编码,获得问题特征;
具体的,对问题进行编码,获得问题特征,具体方法是:
a)针对一个问题Q={q1,q2,...,qM},对问题中的每个单词进行如下计算,得到词向量表示xi:
pi=One-Hot(qi)
ri=Wepi,i∈{1,2,...,M}
a)使用双向门循环单元模型Bi-GRU对词向量组{r1,r2,...,rM}进行如下编码:
其中,[,]表示拼接操作,FQ表示问题特征,表示FQ在实数域中的维度为dq,下标q表示问题特征的标记。S5.对步骤S3所获得的物体联合特征和对步骤S4所获得的问题特征输入注意力模型中得到具有问题意识的联合特征;
具体的,将物体联合特征和问题特征输入注意力模型中得到具有问题意识的联合特征;具体的,得到问题意识的联合特征的具体的方法是:
a)计算问题特征FQ与物体联合特征FJ的交互空间:
c)利用相似度矩阵与物体联合特征相乘得到具有问题意识的联合特征,公式如下:
S6.用步骤S5所获得的具有问题意识的联合特征,来初始化图卷积网络节点,构建具有问题意识的图卷积网络来推理不同物体之间的复杂关系,得到具有问题意识的物体关系特征;
a)具体的,得到具有问题意识的物体关系特征的具体的方法是:计算图卷积网络的初始化节点:
A(1)=softmax(W1X(0)(W2X(0))T)
b)构建图卷积网络结构,对于第p层(1≤p≤P)图卷积网络的推理过程如下:
X(p)=A(p)X(p-1)W(p)
其中,X(p)为第p层图卷积网络的节点特征,W(p)为通过第p-1层图卷积网络的节点特征X(p-1)计算得到的第p层的邻接矩阵,W(p)为第p层图卷积网络的权重参数;
c)对于第p层的邻接矩阵A(p),则根据第p-1层图卷积网络节点X(p-1)与其自身的相似度来计算得到,公式如下:
A(p)=softmax(W1X(p-1)(W2X(p-1))T)
其中,W1和W2为映射矩阵,上标T表示矩阵的转置运算;
d)将初始节点特征X(0)与最后一层的节点特征X(P)融合后得到GCN的输出,公式如下:
FR=X(P)+X(0)
其中,为GCN生成的具有问题意识的物体关系特征,k表示检测出置信度得分最高的k个物体。本专利提出一种基于动态注意力与图网络推理的视频问答系统,该系统由N个卷积神经网络GCN组成,来捕获视频在不同时间段中物体关系特征,最终,将所有时间段的关系特征集合记为F1 R表示第一个GCN网络捕获第一时刻的物体关系特征。
S7.对步骤S6所获得的具有问题意识的物体关系特征,使用GRU模型进行编码,将最后时刻的隐藏状态作为具有时序关系的视频特征;
具体的,使用GRU模型对其进行编码表示,得到具有时序关系的视频特征的方法是:
ht=GRU(Ft R,ht-1),1≤t≤N
S8.对步骤S7所获得的具有时序关系的视频特征,步骤S4所获得的问题特征进行低秩双线性融合得到融合特征,并使用softmax生成答案。
具体的,生成答案的具体方法是:
a)将具有时序关系的视频特征FV与问题特征FQ输入到低秩双线性融合MLB模型中,得到融合特征z:
z=PTσ(UTFv⊙VTFQ)+b
其中P、U和V分别为三个可训练权重矩阵,b为偏置向量,σ为ReLU函数,⊙代表哈达玛积,上标T表示矩阵的转置操作;
其中,Wa是参数矩阵,ba是偏置向量。
对本发明提出的方法进行实验分析:
在视频问答数据集MSVD-QA数据集上对本发明提出的模型进行实验分析。
MSVD-QA数据集是基于微软研究视频描述语料库采用自动生成方法得到的数据集,该数据集的问题类型是开放式问题。MSVD-QA数据集总共有1970个视频片段和50,505对问题答案。MSVD-QA数据集是一个包含人们日常生活视频为主的数据集。
本发明将MSVD-QA数据集划分为训练集占视频总数的61%,验证集的数量占视频总数的13%,测试集的数量占视频总数的26%。
使用Mask R-CNN提取物体特征,其特征维度为1024d。使用在Sport-1M数据集上预训练的C3D模型捕获物体的动态信息,将conv5b层的输出特征向量作为提取出的物体运动特征,其特征尺寸为1024d。对于问题,使用预训练的Glove模型提取问题的语义表示,每个单词的特征维度为300d。
为了客观地评价本发明的性能,按实施方式中描述的步骤,测试了本发明在MSVD-QA数据集上的性能,所得的实验结果的精确度能达到52.68%,相比于现有的方法提高了8.8%。
在视频问答数据集SVQA数据集上对本发明提出的模型进行实验分析。
SVQA数据集是一个强推理性视频问答数据集。该数据集视频由Unity3D工具生成。SVQA数据集利用固定的模板自动生成问题,共2000个视频和120K个问答对。
本发明将SVQA数据集划分为训练集占视频总数的65%,验证集的数量占视频总数的15%,测试集的数量占视频总数的20%。
为了客观地评价本发明的性能,按实施方式中描述的步骤,测试了本发明在SVQA数据集上的性能,所得的实验结果的精确度能达到77.6%,相比于现有的方法提高了5.4%。
本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。
所称处理器可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种基于动态注意力与图网络推理的视频问答系统,其特征在于,包括,物体空间特征和物体类别特征计算模块、视觉运动特征提取模块、物体联合特征获取模块、问题特征提取模块、问题意识联合特征获取模块、问题意识的物体关系特征获取模块、视频时序特征获取模块、多模态特征融合模块和答案生成模块;
所述物体空间特征和物体类别特征计算模块用于根据物体检测模型预测视频中物体标注框和类别标签,获得物体空间特征和物体类别特征;
所述视觉运动特征提取模块用于根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征,获得视觉运动特征;
所述物体联合特征获取模块用于将物体空间特征、物体类别特征和视觉运动特征进行融合,获得物体联合特征;
所述问题特征提取模块用于针对问题对问题进行编码,获得问题特征;
所述问题意识联合特征获取模块用于将物体联合特征与问题特征输入注意力模型中,获得具有问题意识的联合特征;
所述问题意识的物体关系特征获取模块用于构建具有问题意识的图卷积网络推理不同物体之间的复杂关系,获得具有问题意识的物体关系特征,具体的方法是:
a)计算图卷积网络的初始化节点:
A(1)=softmax(W1X(0)(W2X(0))T)
b)构建图卷积网络结构,对于第p层(1≤p≤P)图卷积网络的推理过程如下:
X(p)=A(p)X(p-1)W(p)
其中,X(p)为第p层图卷积网络的节点特征,A(p)为通过第p-1层图卷积网络的节点特征X(p-1)计算得到的第p层的邻接矩阵,W(p)为第p层图卷积网络的权重参数;
c)对于第p层的邻接矩阵A(p),则根据第p-1层图卷积网络节点X(p-1)与其自身的相似度来计算得到,公式如下:
A(p)=softmax(W1X(p-1)(W2X(p-1))T)
其中,W1和W2为映射矩阵,上标T表示矩阵的转置运算;
d)将初始节点特征X(0)与最后一层的节点特征X(P)融合后得到GCN的输出,公式如下:
FR=X(P)+X(0)
所述视频时序特征获取模块用于将问题意识的物体关系特征获取模块获得的具有问题意识的物体关系特征使用GRU模型进行编码,将最后时刻的隐藏状态作为具有时序关系的视频特征;
所述多模态特征融合模块用于将问题特征和具有时序关系的视频特征进行低秩双线性融合获得融合特征;
所述答案生成模块用于使用softmax函数计算生成答案。
2.一种基于动态注意力与图网络推理的视频问答方法,其特征在于,包括以下步骤:
S1.针对一段视频,根据物体检测模型预测视频中物体标注框和类别标签,来计算物体空间特征和物体类别特征;
S2.针对一段视频,根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征;
S3.对步骤S1所获得的物体空间特征和物体类别特征,对步骤S2所获得的视觉运动特征进行特征融合得到物体联合特征;
S4.针对问题,对问题进行编码,获得问题特征;
S5.对步骤S3所获得的物体联合特征和对步骤S4所获得的问题特征输入注意力模型中得到具有问题意识的联合特征;
S6.用步骤S5所获得的具有问题意识的联合特征,来初始化图卷积网络节点,构建具有问题意识的图卷积网络来推理不同物体之间的复杂关系,得到具有问题意识的物体关系特征,具体的方法是:
a)计算图卷积网络的初始化节点:
A(1)=softmax(W1X(0)(W2X(0))T)
b)构建图卷积网络结构,对于第p层(1≤p≤P)图卷积网络的推理过程如下:
X(p)=A(p)X(p-1)W(p)
其中,X(p)为第p层图卷积网络的节点特征,A(p)为通过第p-1层图卷积网络的节点特征X(p-1)计算得到的第p层的邻接矩阵,W(p)为第p层图卷积网络的权重参数;
c)对于第p层的邻接矩阵A(p),则根据第p-1层图卷积网络节点X(p-1)与其自身的相似度来计算得到,公式如下:
A(p)=softmax(W1X(p-1)(W2X(p-1))T)
其中,W1和W2为映射矩阵,上标T表示矩阵的转置运算;
d)将初始节点特征X(0)与最后一层的节点特征X(P)融合后得到GCN的输出,公式如下:
FR=X(P)+X(0)
S7.对步骤S6所获得的具有问题意识的物体关系特征,使用GRU模型进行编码,将最后时刻的隐藏状态作为具有时序关系的视频特征;
S8.对步骤S7所获得的具有时序关系的视频特征,步骤S4所获得的问题特征进行低秩双线性融合得到融合特征,并使用softmax生成答案。
3.根据权利要求2所述的方法,其特征在于,步骤S1所述根据物体检测模型预测视频中物体标注框和类别标签,来提取物体空间特征和物体类别特征的具体方法是:采用目标检测模型Mask R-CNN检测出置信度得分最高的k个物体,根据其标注框和类别标签计算物体空间特征和物体类别特征;具体的计算过程如下:
a)计算物体空间特征:
b)计算物体类别特征:
4.根据权利要求3所述的方法,其特征在于,步骤S2所述提取子视频的视觉运动特征的具体方法是:使用子视频对齐模型对检测到置信度得分最高的k个物体进行空间和时间对齐,得到k个物体的子视频集合S={svk|1≤k≤K},其中,svk表示第k个物体的子视频,具体的计算过程如下:
a)计算物体图像的空间位置,则其中第i行j列像素点的坐标(xi,yj)计算方式如下:
其中,物体图像的左上角坐标原点为(0,0),原图像的像素大小为(W,H),双线性插值后的像素大小为(w,h);
b)计算物体图像的空间像素点,点P(x,y)为计算得到的像素采样点,该点的数值由其最近的四个像素点的数值按距离远近作为权重共同决定;因此,利用与P点最近的像素点Q11(x1,y1)、Q12(x1,y2)、Q21(x2,y1)和Q22(x2,y2)进行计算,首先计算点R1(x,y1)和R2(x,y2)的像素值f(R1)和f(R2),则公式如下:
再通过点R1、R2的像素值f(R1)和f(R2)来计算P点的像素值f(P),则公式如下:
c)使用物体图像的时间对齐模型,将原本长度不确定的n帧物体图像序列转化为长度固定的具有m帧的物体子视频;
6.根据权利要求5所述的方法,其特征在于,步骤S4所述对问题进行编码,获得问题特征,具体方法是:
a)针对一个问题Q={q1,q2,...,qM},对问题中的每个单词进行如下计算,得到词向量表示ri:
pi=One-Hot(qi)
ri=Wepi,i∈{1,2,...,M}
a)使用双向门循环单元模型Bi-GRU对词向量组{r1,r2,...,rM}进行如下编码:
7.根据权利要求6所述的方法,其特征在于,步骤S5所述针对步骤S3计算得到的物体联合特征和步骤S4计算得到的问题特征输入注意力模型中得到具有问题意识的联合特征的具体的方法是:
a)计算问题特征FQ与物体联合特征FJ的交互空间:
c)利用相似度矩阵与物体联合特征相乘得到具有问题意识的联合特征,公式如下:
8.根据权利要求7所述的方法,其特征在于,
步骤S7所述得到具有时序关系的视频特征的方法是:
ht=GRU(Ft R,ht-1),1≤t≤N
步骤S8所述使用softmax函数计算生成答案的具体方法是:
a)将具有时序关系的视频特征FV与问题特征FQ输入到低秩双线性融合MLB模型中,得到融合特征z:
z=PTσ(UTFv⊙VTFQ)+b
其中P、U和V分别为三个可训练权重矩阵,b为偏置向量,σ为ReLU函数,⊙代表哈达玛积,上标T表示矩阵的转置操作;
其中,Wa是参数矩阵,ba是偏置向量。
9.一种计算机,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求2至8任一项所述的一种基于动态注意力与图网络推理的视频问答方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2至8任一项所述的一种基于动态注意力与图网络推理的视频问答方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801259 | 2021-07-15 | ||
CN2021108012596 | 2021-07-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609355A CN113609355A (zh) | 2021-11-05 |
CN113609355B true CN113609355B (zh) | 2022-06-03 |
Family
ID=78307660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110908494.3A Active CN113609355B (zh) | 2021-07-15 | 2021-08-09 | 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609355B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385937A (zh) * | 2023-04-07 | 2023-07-04 | 哈尔滨理工大学 | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274800A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
CN111339908A (zh) * | 2020-02-24 | 2020-06-26 | 青岛科技大学 | 基于多模态信息融合与决策优化的组群行为识别方法 |
CN111858882A (zh) * | 2020-06-24 | 2020-10-30 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
EP3819790A2 (en) * | 2020-06-30 | 2021-05-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for visual question answering, computer device and medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463609B (zh) * | 2017-06-27 | 2020-06-19 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN110704601A (zh) * | 2019-10-11 | 2020-01-17 | 浙江大学 | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 |
-
2021
- 2021-08-09 CN CN202110908494.3A patent/CN113609355B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274800A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
CN111339908A (zh) * | 2020-02-24 | 2020-06-26 | 青岛科技大学 | 基于多模态信息融合与决策优化的组群行为识别方法 |
CN111858882A (zh) * | 2020-06-24 | 2020-10-30 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
EP3819790A2 (en) * | 2020-06-30 | 2021-05-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for visual question answering, computer device and medium |
Non-Patent Citations (1)
Title |
---|
《Video Question Answering: a Survey of Models and Datasets》;Guanglu Sun等;《Mobile Networks and Applications》;20210125;1904–1937 * |
Also Published As
Publication number | Publication date |
---|---|
CN113609355A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
US11657230B2 (en) | Referring image segmentation | |
CN109874029B (zh) | 视频描述生成方法、装置、设备及存储介质 | |
CN111433784B (zh) | 用于检索视频时间段的方法、系统和计算机系统 | |
CN111079601A (zh) | 基于多模态注意力机制的视频内容描述方法、系统、装置 | |
JP2017091525A (ja) | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 | |
Li et al. | Multimodal architecture for video captioning with memory networks and an attention mechanism | |
CN109670168B (zh) | 基于特征学习的短答案自动评分方法、系统及存储介质 | |
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN112634296A (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN112860847B (zh) | 视频问答的交互方法及系统 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
CN112149603A (zh) | 一种基于跨模态数据增广的连续手语识别方法 | |
CN114283352A (zh) | 一种视频语义分割装置、训练方法以及视频语义分割方法 | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN113609355B (zh) | 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112949628B (zh) | 一种基于嵌入-混合的轨迹数据增强及轨迹识别方法 | |
CN115599954B (zh) | 一种基于场景图推理的视频问答方法 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN113609330B (zh) | 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN113569867A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |