CN113609355B - 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 - Google Patents

一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 Download PDF

Info

Publication number
CN113609355B
CN113609355B CN202110908494.3A CN202110908494A CN113609355B CN 113609355 B CN113609355 B CN 113609355B CN 202110908494 A CN202110908494 A CN 202110908494A CN 113609355 B CN113609355 B CN 113609355B
Authority
CN
China
Prior art keywords
video
features
feature
graph
joint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110908494.3A
Other languages
English (en)
Other versions
CN113609355A (zh
Inventor
孙广路
梁丽丽
李天麟
张博伦
谭涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Publication of CN113609355A publication Critical patent/CN113609355A/zh
Application granted granted Critical
Publication of CN113609355B publication Critical patent/CN113609355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。首先,计算物体空间特征和物体类别特征;其次,提取子视频的视觉运动特征;再其次,将物体空间、物体类别特征和视觉运动特征进行特征融合得到物体联合特征;再其次,对问题进行编码,获得问题特征,再其次,将物体联合特征和问题特征输入注意力模型中得到具有问题意识的联合特征;再其次,获得具有问题意识的物体关系特征;再其次,获得具有时序关系的视频特征;最后,得到融合特征生成答案。本发明解决了现有的视频问答系统不能有效地表示不同模态、同模态之间的关联程度和不能有针对性获取不同物体运动信息的问题。

Description

一种基于动态注意力与图网络推理的视频问答系统、方法、计 算机及存储介质
技术领域
本发明涉及一种视频问答方法,尤其涉及一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质,属于计算机视觉和自然语言处理交叉领域。
背景技术
近几年,随着计算机视觉与自然语言处理的发展,大量的视觉与语言研究课题得到了广泛的关注。视频问答是跨模态任务,它包括多种不同模态的数据信息,如视频模态、语音模态、文本模态。视频问答的任务可以描述为,已知一段视频和与视频内容相关的自然语言描述的问题,通过获取他们的视觉信息和语义信息,对问题进行答案预测的过程。当人们观看一段视频时,会通过视频展现的视觉信息来获取视频中出现的人物、物体、环境等,使人们对视频内容有了一个整体的了解。
目前的视频问答任务虽然解决了不同模态信息间的交互问题,但仍存在以下不足:(1)使用现有的神经网络建模视频中时-空间信息时,获得的时序特征不能有效地表示不同模态、同模态之间的关联程度;(2)通常情况下,视频中包含多个运动的物体,而目前模型不能有针对性的获取不同物体的运动信息,并且存在大量的冗余信息;(3)采用图卷积网络解决视频问答任务的方法中,他们根据物体信息构建图节点表示,确没有使用物体的位置、运动等信息。
在视频问答任务中,如何使获得的时序特征有效的表示不同模态和同模态之间的关联程度、有针对性的获取不同物体的运动信息,解决大量冗余的信息以及使用物体的位置和运动的信息构建图节点,是视频问答的关键和难点问题。本发明针对该问题,提出了一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明提供了一种基于动态注意力与图网络推理的视频问答系统,包括,物体空间特征和物体类别特征计算模块、视觉运动特征提取模块、物体联合特征获取模块、问题特征提取模块、问题意识联合特征获取模块、问题意识的物体关系特征获取模块、视频时序特征获取模块、多模态特征融合模块和答案生成模块;
所述物体空间特征和物体类别特征计算模块用于根据物体检测模型预测视频中物体标注框和类别标签,获得物体空间特征和物体类别特征;
所述视觉运动特征提取模块用于根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征,获得视觉运动特征;
所述物体联合特征获取模块用于将物体空间特征、物体类别特征和视觉运动特征进行融合,获得物体联合特征;
所述问题特征提取模块用于针对问题对问题进行编码,获得问题特征;
所述问题意识联合特征获取模块用于将物体联合特征与问题特征输入注意力模型中,获得具有问题意识的联合特征;
所述问题意识的物体关系特征获取模块用于构建具有问题意识的图卷积网络推理不同物体之间的复杂关系,获得具有问题意识的物体关系特征;
所述视频时序特征获取模块用于获得GRU解码阶段最后时刻的隐藏状态,将其作为具有时序关系的视频特征表示;
所述多模态特征融合模块用于将问题特征和具有时序关系的视频特征进行低秩双线性融合获得融合特征;
所述答案生成模块用于使用softmax函数计算生成答案。
一种基于动态注意力与图网络推理的视频问答方法,包括以下步骤:
S1.针对一段视频,根据物体检测模型预测视频中物体标注框和类别标签,来计算物体空间特征和物体类别特征;
S2.针对一段视频,根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征;
S3.对步骤S1所获得的物体空间特征和物体类别特征,对步骤S2所获得的视觉运动特征进行特征融合得到物体联合特征;
S4.针对问题,对问题进行编码,获得问题特征;
S5.对步骤S3所获得的物体联合特征和对步骤S4所获得的问题特征输入注意力模型中得到具有问题意识的联合特征;
S6.用步骤S5所获得的具有问题意识的联合特征,来初始化图卷积网络节点,构建具有问题意识的图卷积网络来推理不同物体之间的复杂关系,得到具有问题意识的物体关系特征;
S7.对步骤S6所获得的具有问题意识的物体关系特征,使用GRU模型进行编码,将最后时刻的隐藏状态作为具有时序关系的视频特征;
S8.对步骤S7所获得的具有时序关系的视频特征,步骤S4所获得的问题特征进行低秩双线性融合得到融合特征,并使用softmax生成答案。
优选的,步骤S1所述根据物体检测模型预测视频中物体标注框和类别标签,来提取物体空间特征和物体类别特征的具体方法是:采用目标检测模型Mask R-CNN检测出置信度得分最高的k个物体,根据其标注框和类别标签计算物体空间特征和物体类别特征;具体的计算过程如下:
a)计算物体空间特征:
Fs=MLP(S)
Figure BDA0003202786250000031
其中,S={x,y,h,w},x和y为物体在视频帧中的坐标,h和w为物体边框的高度和宽度;MLP()是浅层的前馈神经网络,
Figure BDA0003202786250000032
表示FS在实数域
Figure BDA0003202786250000033
中的维度为ds,下标s表示物体空间特征的标记;
b)计算物体类别特征:
FL=MLP(EL)
Figure BDA0003202786250000034
其中,EL为物体类别标签的词嵌入向量表示,
Figure BDA0003202786250000035
表示FL在实数域
Figure BDA0003202786250000036
中的维度为dl,下标l表示物体类别特征的标记。
优选的,步骤S2所述提出根据子视频对齐模型来获取物体时空维度相同的子视频,然后利用三维卷积模型C3D提取子视频的视觉运动特征;获取子视频的视觉运动特征的具体方法是:使用子视频对齐模型对检测到置信度得分最高的k个物体进行空间和时间对齐,得到k个物体的子视频集合S={svk|1≤k≤K},其中,svk表示第k个物体的子视频,具体的计算过程如下:
a)计算物体图像的空间位置,则其中第i行j列像素点的坐标(xi,yj)计算方式如下:
Figure BDA0003202786250000037
其中,物体图像的左上角坐标原点为(0,0),原图像的像素大小为(W,H),双线性插值后的像素大小为(w,h);
b)计算物体图像的空间像素点,点P(x,y)为计算得到的像素采样点,该点的数值由其最近的四个像素点的数值按距离远近作为权重共同决定;因此,利用与P点最近的像素点Q11(x1,y1)、Q12(x1,y2)、Q21(x2,y1)和Q22(x2,y2)进行计算,首先计算点R1(x,y1)和R2(x,y2)的像素值f(R1)和f(R2),则公式如下:
Figure BDA0003202786250000041
Figure BDA0003202786250000042
再通过点R1、R2的像素值f(R1)和f(R2)来计算P点的像素值f(P),则公式如下:
Figure BDA0003202786250000043
c)使用物体图像的时间对齐模型,将原本长度不确定的n帧物体图像序列转化为长度固定的具有m帧的物体子视频;
d)将子视频svk拆分成N个剪辑,得到包含N个剪辑的集合
Figure BDA0003202786250000044
其中
Figure BDA0003202786250000045
表示第k个子视频中的第n个剪辑,利用C3D计算剪辑的运动特征:
FM=C3D(Csv),
Figure BDA0003202786250000046
其中,
Figure BDA0003202786250000047
表示FM在实数域
Figure BDA0003202786250000048
中的维度为dm,下标m表示剪辑运动特征的标记,Csv表示所有子视频的剪辑集合。
优选的,步骤S3所述针对步骤S1计算得到的物体空间特征FS和物体类别特征FL,针对步骤S2计算得到的视觉运动特征FM进行特征融合得到物体联合特征FJ;具体的方法是:
FJ=[FS;FL;FM],
Figure BDA0003202786250000049
dj=dm+ds+dl
其中[·;·;·]代表拼接融合操作,
Figure BDA00032027862500000410
表示FJ在实数域
Figure BDA00032027862500000411
中的维度为dj,下标j表示物体联合特征的标记。
优选的,步骤S4所述对问题进行编码,获得问题特征,具体方法是:
a)针对一个问题Q={q1,q2,...,qM},对问题中的每个单词进行如下计算,得到词向量表示ri
pi=One-Hot(qi)
ri=Wepi,i∈{1,2,...,M}
其中,One-Hot()表示独热编码,它将问题中的单词qi转换成独热编码表示pi
Figure BDA00032027862500000412
为词嵌入矩阵,其中L为词汇表的长度,300是每一个单词qi的维度;
a)使用双向门循环单元模型Bi-GRU对词向量组{r1,r2,...,rM}进行如下编码:
Figure BDA0003202786250000051
其中,
Figure BDA0003202786250000052
表示正向GRU得到的隐状态序列,
Figure BDA0003202786250000053
表示反向GRU得到的隐状态序列,词向量组中i∈{1,2,....,M};
b)将Bi-GRU模型最后时刻输出隐状态结果
Figure BDA0003202786250000054
Figure BDA0003202786250000055
进行拼接,得到问题特征:
Figure BDA0003202786250000056
其中,[,]表示拼接操作,FQ表示问题特征,
Figure BDA0003202786250000057
表示FQ在实数域
Figure BDA00032027862500000523
中的维度为dq,下标q表示问题特征的标记。
优选的,步骤S5所述针对步骤S3计算得到的物体联合特征和步骤S4计算得到的问题特征输入注意力模型中得到具有问题意识的联合特征的具体的方法是:
a)计算问题特征FQ与物体联合特征FJ的交互空间:
Figure BDA0003202786250000058
Figure BDA0003202786250000059
其中,
Figure BDA00032027862500000510
Figure BDA00032027862500000511
为可学习的权重矩阵,bQ和bJ为偏置向量;
Figure BDA00032027862500000512
是实数域
Figure BDA00032027862500000513
中dq×dj的矩阵,
Figure BDA00032027862500000514
是实数域
Figure BDA00032027862500000515
中dq×dj的矩阵;
b)使用缩放点积函数计算问题特征与物体联合特征的相似度矩阵
Figure BDA00032027862500000516
公式如下:
Figure BDA00032027862500000517
其中,
Figure BDA00032027862500000518
为映射到交互空间的问题特征转置表示,d为缩放因子,softmax()为归一化函数;
c)利用相似度矩阵与物体联合特征相乘得到具有问题意识的联合特征,公式如下:
Figure BDA00032027862500000519
其中,
Figure BDA00032027862500000520
表示
Figure BDA00032027862500000521
在实数域
Figure BDA00032027862500000522
中的维度为dj,下标j表示具有问题意识的联合特征的标记。
优选的,步骤S6所述得到具有问题意识的物体关系特征的具体的方法是:
a)计算图卷积网络的初始化节点:
A(1)=softmax(W1X(0)(W2X(0))T)
其中,A(1)表示第一层图卷积网络的邻居矩阵,用具有问题意识的联合特征
Figure BDA0003202786250000061
初始化图的初始节点X(0),W1和W2为映射矩阵,上标T表示矩阵的转置运算;
b)构建图卷积网络结构,对于第p层(1≤p≤P)图卷积网络的推理过程如下:
X(p)=A(p)X(p-1)W(p)
其中,X(p)为第p层图卷积网络的节点特征,A(p)为通过第p-1层图卷积网络的节点特征X(p-1)计算得到的第p层的邻接矩阵,W(p)为第p层图卷积网络的权重参数;
c)对于第p层的邻接矩阵A(p),则根据第p-1层图卷积网络节点X(p-1)与其自身的相似度来计算得到,公式如下:
A(p)=softmax(W1X(p-1 )(W2X(p-1)T)
其中,W1和W2为映射矩阵,上标T表示矩阵的转置运算;
d)将初始节点特征X(0)与最后一层的节点特征X(P)融合后得到GCN的输出,公式如下:
FR+X(P)+X(0)
其中,
Figure BDA0003202786250000062
为GCN生成的具有问题意识的物体关系特征,k表示检测出置信度得分最高的k个物体;将所有时间段的关系特征集合记为
Figure BDA0003202786250000063
F1 R表示第一个GCN网络捕获第一时刻的物体关系特征;
步骤S7所述得到具有时序关系的视频特征的方法是:
ht=GRU(Ft R,ht-1),1≤t≤N
其中,ht-1表示t-1时刻的隐藏状态特征,将最后时刻的隐藏状态hN输出记为具有时序关系的视频特征
Figure BDA0003202786250000064
FV在实数域
Figure BDA0003202786250000065
中的维度为dv,下标v表示具有时序关系的视频特征的标记。
步骤S8所述使用softmax函数计算生成答案的具体方法是:
a)将具有时序关系的视频特征FV与问题特征FQ输入到低秩双线性融合MLB模型中,得到融合特征z:
z=PTσ(UTFv⊙VTFQ)+b
其中P、U和V分别为三个可训练权重矩阵,b为偏置向量,σ为ReLU函数,⊙代表哈达玛积,上标T表示矩阵的转置操作;
b)使用softmax函数将融合特征z映射输出得分最高的答案类别
Figure BDA0003202786250000071
最终答案的计算公式如下:
Figure BDA0003202786250000072
其中,Wa是参数矩阵,ba是偏置向量。
一种计算机,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现一种基于动态注意力与图网络推理的视频问答方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现一种基于动态注意力与图网络推理的视频问答方法。
本发明的有益效果如下:
本发明不同于已有的视频问答模型中视觉特征的提取方式,本发明通过提取视频的物体联合特征,加强对单个物体的运动信息的获取,去除与问题不相关的信息。本发明通过一种新的特征构成思路,在视觉运动特征中添加关于物体空间和类别信息,丰富视觉信息中的语义信息的同时能够与问题特征进行更好地结合。在图卷积网络引入注意力机制,图卷积网络在推理过程中可以逐渐积累到与问题相关的图节点信息,并加强物体运动特征之间的关系。本发明充分结合注意力机制和图卷积网络来推理视频中不同物体之间的复杂关系,有效提高了视频问答的准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例一所述的系统结构示意图;
图2为本发明实施例二所述的方法流程示意图;
图3为本发明实施例二所述的双线性插值示意图;
图4为本发明实施例二所述的方法原理示意图;
图5为本发明解决视频问答任务的预测结果示例图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一:
参照图1说明本实施例,本实施例的一种基于动态注意力与图网络推理的视频问答系统,包括,物体空间特征和物体类别特征计算模块、视觉运动特征提取模块、物体联合特征获取模块、问题特征提取模块、问题意识联合特征获取模块、问题意识的物体关系特征获取模块、视频时序特征获取模块、多模态特征融合模块和答案生成模块;
所述物体空间特征和物体类别特征计算模块用于根据物体检测模型预测视频中物体标注框和类别标签,获得物体空间特征和物体类别特征;
所述视觉运动特征提取模块用于根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征,获得视觉运动特征;
所述物体联合特征获取模块用于将物体空间特征、物体类别特征和视觉运动特征进行融合,获得物体联合特征;
所述问题特征提取模块用于针对问题对问题进行编码,获得问题特征;
所述问题意识联合特征获取模块用于将物体联合特征与问题特征输入注意力模型中,获得具有问题意识的联合特征;
所述问题意识的物体关系特征获取模块用于构建具有问题意识的图卷积网络推理不同物体之间的复杂关系,获得具有问题意识的物体关系特征;
所述视频时序特征获取模块用于获得GRU解码阶段最后时刻的隐藏状态,将其作为具有时序关系的视频特征表示;
所述多模态特征融合模块用于将问题特征和具有时序关系的视频特征进行低秩双线性融合获得融合特征;
所述答案生成模块用于使用softmax函数计算生成答案。
实施例二:
参照图2至图5说明本实施方式,本实施例的一种基于动态注意力与图网络推理的视频问答方法,包括以下步骤:
S1.针对一段视频,根据物体检测模型预测视频中物体标注框和类别标签,来计算物体空间特征和物体类别特征;
具体的,预测视频中物体标注框和类别标签,来提取物体空间特征和物体类别特征的具体方法是:采用目标检测模型Mask R-CNN检测出置信度得分最高的k个物体,根据其标注框和类别标签计算物体空间特征和物体类别特征;具体的计算过程如下:
a)计算物体空间特征:
Fs=MLP(S),
Figure BDA0003202786250000091
其中,S={x,y,h,w},x和y为物体在视频帧中的坐标,h和w为物体边框的高度和宽度;MLP()是浅层的前馈神经网络,
Figure BDA0003202786250000092
表示FS在实数域
Figure BDA0003202786250000093
中的维度为ds,下标s表示物体空间特征的标记;
b)计算物体类别特征:
FL=MLP(EL),
Figure BDA0003202786250000094
其中,EL为物体类别标签的词嵌入向量表示,
Figure BDA0003202786250000095
表示FL在实数域
Figure BDA0003202786250000099
中的维度为dl,下标l表示物体类别特征的标记。
S2.针对一段视频,根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征;
具体的,根据子视频对齐模型来获取物体时空维度相同的子视频,然后利用三维卷积模型C3D提取子视频的视觉运动特征;获取子视频的视觉运动特征的具体方法是:使用子视频对齐模型对检测到置信度得分最高的k个物体进行空间和时间对齐,得到k个物体的子视频集合S={svk|1≤k≤K},其中,svk表示第k个物体的子视频,具体的计算过程如下:
a)计算物体图像的空间位置,则其中第i行j列像素点的坐标(xi,yj)计算方式如下:
Figure BDA0003202786250000096
其中,物体图像的左上角坐标原点为(0,0),原图像的像素大小为(W,H),双线性插值后的像素大小为(w,h);
b)计算物体图像的空间像素点,点P(x,y)为计算得到的像素采样点,该点的数值由其最近的四个像素点的数值按距离远近作为权重共同决定;因此,利用与P点最近的像素点Q11(x1,y1)、Q12(x1,y2)、Q21(x2,y1)和Q22(x2,y2)进行计算,首先计算点R1(x,y1)和R2(x,y2)的像素值f(R1)和f(R2),则公式如下:
Figure BDA0003202786250000097
Figure BDA0003202786250000098
再通过点R1、R2的像素值f(R1)和f(R2)来计算P点的像素值f(P),则公式如下:
Figure BDA0003202786250000101
c)使用物体图像的时间对齐模型,将原本长度不确定的n帧物体图像序列转化为长度固定的具有m帧的物体子视频;
d)将子视频svk拆分成N个剪辑,得到包含N个剪辑的集合
Figure BDA0003202786250000102
其中
Figure BDA0003202786250000103
表示第k个子视频中的第n个剪辑,利用C3D计算剪辑的运动特征:
FM=C3D(Csv),
Figure BDA0003202786250000104
其中,
Figure BDA0003202786250000105
表示FM在实数域
Figure BDA00032027862500001011
中的维度为dm,下标m表示剪辑运动特征的标记,Csv表示所有子视频的剪辑集合。
S3.对步骤S1所获得的物体空间特征和物体类别特征,对步骤S2所获得的视觉运动特征进行特征融合得到物体联合特征;
具体的,将物体空间特征FS、物体类别特征FL和视觉运动特征FM进行特征融合得到物体联合特征FJ
具体的,得到物体联合特征的具体方法是:
FJ=[Fs;FL;FM],
Figure BDA0003202786250000106
dj=dm+ds+dl
其中[·;·;·]代表拼接融合操作,
Figure BDA0003202786250000107
表示FJ在实数域
Figure BDA0003202786250000108
中的维度为dj,下标j表示物体联合特征的标记。
S4.针对问题,对问题进行编码,获得问题特征;
具体的,对问题进行编码,获得问题特征,具体方法是:
a)针对一个问题Q={q1,q2,...,qM},对问题中的每个单词进行如下计算,得到词向量表示xi
pi=One-Hot(qi)
ri=Wepi,i∈{1,2,...,M}
其中,One-Hot()表示独热编码,它将一个单词qi转换成独热编码表示pi
Figure BDA0003202786250000109
为词嵌入矩阵,其中L为词汇表的长度,300是每一个单词qi的维度。
a)使用双向门循环单元模型Bi-GRU对词向量组{r1,r2,...,rM}进行如下编码:
Figure BDA00032027862500001010
其中,
Figure BDA0003202786250000111
表示正向GRU得到的隐状态序列,
Figure BDA0003202786250000112
表示反向GRU得到的隐状态序列、词向量组中i∈{1,2,....,M}。
b)将Bi-GRU模型最后时刻输出隐状态结果
Figure BDA0003202786250000113
Figure BDA0003202786250000114
进行拼接,得到问题特征:
Figure BDA0003202786250000115
其中,[,]表示拼接操作,FQ表示问题特征,
Figure BDA0003202786250000116
表示FQ在实数域
Figure BDA0003202786250000117
中的维度为dq,下标q表示问题特征的标记。S5.对步骤S3所获得的物体联合特征和对步骤S4所获得的问题特征输入注意力模型中得到具有问题意识的联合特征;
具体的,将物体联合特征和问题特征输入注意力模型中得到具有问题意识的联合特征;具体的,得到问题意识的联合特征的具体的方法是:
a)计算问题特征FQ与物体联合特征FJ的交互空间:
Figure BDA0003202786250000118
Figure BDA0003202786250000119
其中,
Figure BDA00032027862500001110
Figure BDA00032027862500001111
为可学习的权重矩阵,bQ和bJ为偏置向量;
Figure BDA00032027862500001112
是实数域
Figure BDA00032027862500001113
中dq×dj的矩阵,
Figure BDA00032027862500001114
是实数域
Figure BDA00032027862500001115
中dq×dj的矩阵;
b)使用缩放点积函数计算问题特征与物体联合特征的相似度矩阵
Figure BDA00032027862500001116
公式如下:
Figure BDA00032027862500001117
其中,
Figure BDA00032027862500001118
为映射到交互空间的问题特征转置表示,d为缩放因子,softmax()为归一化函数。
c)利用相似度矩阵与物体联合特征相乘得到具有问题意识的联合特征,公式如下:
Figure BDA00032027862500001119
其中,
Figure BDA00032027862500001120
表示
Figure BDA00032027862500001121
在实数域
Figure BDA00032027862500001122
中的维度为dj,下标j表示具有问题意识的联合特征的标记。
S6.用步骤S5所获得的具有问题意识的联合特征,来初始化图卷积网络节点,构建具有问题意识的图卷积网络来推理不同物体之间的复杂关系,得到具有问题意识的物体关系特征;
a)具体的,得到具有问题意识的物体关系特征的具体的方法是:计算图卷积网络的初始化节点:
A(1)=softmax(W1X(0)(W2X(0))T)
其中,A(1)表示第一层图卷积网络的邻居矩阵,用具有问题意识的联合特征
Figure BDA0003202786250000121
初始化图的初始节点X(0),W1和W2为映射矩阵,上标T表示矩阵的转置运算;
b)构建图卷积网络结构,对于第p层(1≤p≤P)图卷积网络的推理过程如下:
X(p)=A(p)X(p-1)W(p)
其中,X(p)为第p层图卷积网络的节点特征,W(p)为通过第p-1层图卷积网络的节点特征X(p-1)计算得到的第p层的邻接矩阵,W(p)为第p层图卷积网络的权重参数;
c)对于第p层的邻接矩阵A(p),则根据第p-1层图卷积网络节点X(p-1)与其自身的相似度来计算得到,公式如下:
A(p)=softmax(W1X(p-1)(W2X(p-1))T)
其中,W1和W2为映射矩阵,上标T表示矩阵的转置运算;
d)将初始节点特征X(0)与最后一层的节点特征X(P)融合后得到GCN的输出,公式如下:
FR=X(P)+X(0)
其中,
Figure BDA0003202786250000122
为GCN生成的具有问题意识的物体关系特征,k表示检测出置信度得分最高的k个物体。本专利提出一种基于动态注意力与图网络推理的视频问答系统,该系统由N个卷积神经网络GCN组成,来捕获视频在不同时间段中物体关系特征,最终,将所有时间段的关系特征集合记为
Figure BDA0003202786250000123
F1 R表示第一个GCN网络捕获第一时刻的物体关系特征。
S7.对步骤S6所获得的具有问题意识的物体关系特征,使用GRU模型进行编码,将最后时刻的隐藏状态作为具有时序关系的视频特征;
具体的,使用GRU模型对其进行编码表示,得到具有时序关系的视频特征的方法是:
ht=GRU(Ft R,ht-1),1≤t≤N
其中,ht-1表示t-1时刻的隐藏状态特征,将最后时刻的隐藏状态hN输出记为具有时序关系的视频特征
Figure BDA0003202786250000131
FV在实数域
Figure BDA0003202786250000132
中的维度为dv,下标v表示具有时序关系的视频特征的标记。
S8.对步骤S7所获得的具有时序关系的视频特征,步骤S4所获得的问题特征进行低秩双线性融合得到融合特征,并使用softmax生成答案。
具体的,生成答案的具体方法是:
a)将具有时序关系的视频特征FV与问题特征FQ输入到低秩双线性融合MLB模型中,得到融合特征z:
z=PTσ(UTFv⊙VTFQ)+b
其中P、U和V分别为三个可训练权重矩阵,b为偏置向量,σ为ReLU函数,⊙代表哈达玛积,上标T表示矩阵的转置操作;
b)使用softmax函数将融合特征z映射输出得分最高的答案类别
Figure BDA0003202786250000133
最终答案的计算公式如下:
Figure BDA0003202786250000134
其中,Wa是参数矩阵,ba是偏置向量。
对本发明提出的方法进行实验分析:
在视频问答数据集MSVD-QA数据集上对本发明提出的模型进行实验分析。
MSVD-QA数据集是基于微软研究视频描述语料库采用自动生成方法得到的数据集,该数据集的问题类型是开放式问题。MSVD-QA数据集总共有1970个视频片段和50,505对问题答案。MSVD-QA数据集是一个包含人们日常生活视频为主的数据集。
本发明将MSVD-QA数据集划分为训练集占视频总数的61%,验证集的数量占视频总数的13%,测试集的数量占视频总数的26%。
使用Mask R-CNN提取物体特征,其特征维度为1024d。使用在Sport-1M数据集上预训练的C3D模型捕获物体的动态信息,将conv5b层的输出特征向量作为提取出的物体运动特征,其特征尺寸为1024d。对于问题,使用预训练的Glove模型提取问题的语义表示,每个单词的特征维度为300d。
为了客观地评价本发明的性能,按实施方式中描述的步骤,测试了本发明在MSVD-QA数据集上的性能,所得的实验结果的精确度能达到52.68%,相比于现有的方法提高了8.8%。
在视频问答数据集SVQA数据集上对本发明提出的模型进行实验分析。
SVQA数据集是一个强推理性视频问答数据集。该数据集视频由Unity3D工具生成。SVQA数据集利用固定的模板自动生成问题,共2000个视频和120K个问答对。
本发明将SVQA数据集划分为训练集占视频总数的65%,验证集的数量占视频总数的15%,测试集的数量占视频总数的20%。
为了客观地评价本发明的性能,按实施方式中描述的步骤,测试了本发明在SVQA数据集上的性能,所得的实验结果的精确度能达到77.6%,相比于现有的方法提高了5.4%。
本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。
所称处理器可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种基于动态注意力与图网络推理的视频问答系统,其特征在于,包括,物体空间特征和物体类别特征计算模块、视觉运动特征提取模块、物体联合特征获取模块、问题特征提取模块、问题意识联合特征获取模块、问题意识的物体关系特征获取模块、视频时序特征获取模块、多模态特征融合模块和答案生成模块;
所述物体空间特征和物体类别特征计算模块用于根据物体检测模型预测视频中物体标注框和类别标签,获得物体空间特征和物体类别特征;
所述视觉运动特征提取模块用于根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征,获得视觉运动特征;
所述物体联合特征获取模块用于将物体空间特征、物体类别特征和视觉运动特征进行融合,获得物体联合特征;
所述问题特征提取模块用于针对问题对问题进行编码,获得问题特征;
所述问题意识联合特征获取模块用于将物体联合特征与问题特征输入注意力模型中,获得具有问题意识的联合特征;
所述问题意识的物体关系特征获取模块用于构建具有问题意识的图卷积网络推理不同物体之间的复杂关系,获得具有问题意识的物体关系特征,具体的方法是:
a)计算图卷积网络的初始化节点:
A(1)=softmax(W1X(0)(W2X(0))T)
其中,A(1)表示第一层图卷积网络的邻居矩阵,用具有问题意识的联合特征
Figure FDA0003504481130000011
初始化图的初始节点X(0),W1和W2为映射矩阵,上标T表示矩阵的转置运算;
b)构建图卷积网络结构,对于第p层(1≤p≤P)图卷积网络的推理过程如下:
X(p)=A(p)X(p-1)W(p)
其中,X(p)为第p层图卷积网络的节点特征,A(p)为通过第p-1层图卷积网络的节点特征X(p-1)计算得到的第p层的邻接矩阵,W(p)为第p层图卷积网络的权重参数;
c)对于第p层的邻接矩阵A(p),则根据第p-1层图卷积网络节点X(p-1)与其自身的相似度来计算得到,公式如下:
A(p)=softmax(W1X(p-1)(W2X(p-1))T)
其中,W1和W2为映射矩阵,上标T表示矩阵的转置运算;
d)将初始节点特征X(0)与最后一层的节点特征X(P)融合后得到GCN的输出,公式如下:
FR=X(P)+X(0)
其中,
Figure FDA0003504481130000021
为GCN生成的具有问题意识的物体关系特征,k表示检测出置信度得分最高的k个物体;将所有时间段的关系特征集合记为
Figure FDA0003504481130000022
F1 R表示第一个GCN网络捕获第一时刻的物体关系特征;
所述视频时序特征获取模块用于将问题意识的物体关系特征获取模块获得的具有问题意识的物体关系特征使用GRU模型进行编码,将最后时刻的隐藏状态作为具有时序关系的视频特征;
所述多模态特征融合模块用于将问题特征和具有时序关系的视频特征进行低秩双线性融合获得融合特征;
所述答案生成模块用于使用softmax函数计算生成答案。
2.一种基于动态注意力与图网络推理的视频问答方法,其特征在于,包括以下步骤:
S1.针对一段视频,根据物体检测模型预测视频中物体标注框和类别标签,来计算物体空间特征和物体类别特征;
S2.针对一段视频,根据子视频对齐模型来获取时空维度相同的子视频,提取子视频的视觉运动特征;
S3.对步骤S1所获得的物体空间特征和物体类别特征,对步骤S2所获得的视觉运动特征进行特征融合得到物体联合特征;
S4.针对问题,对问题进行编码,获得问题特征;
S5.对步骤S3所获得的物体联合特征和对步骤S4所获得的问题特征输入注意力模型中得到具有问题意识的联合特征;
S6.用步骤S5所获得的具有问题意识的联合特征,来初始化图卷积网络节点,构建具有问题意识的图卷积网络来推理不同物体之间的复杂关系,得到具有问题意识的物体关系特征,具体的方法是:
a)计算图卷积网络的初始化节点:
A(1)=softmax(W1X(0)(W2X(0))T)
其中,A(1)表示第一层图卷积网络的邻居矩阵,用具有问题意识的联合特征
Figure FDA0003504481130000033
初始化图的初始节点X(0),W1和W2为映射矩阵,上标T表示矩阵的转置运算;
b)构建图卷积网络结构,对于第p层(1≤p≤P)图卷积网络的推理过程如下:
X(p)=A(p)X(p-1)W(p)
其中,X(p)为第p层图卷积网络的节点特征,A(p)为通过第p-1层图卷积网络的节点特征X(p-1)计算得到的第p层的邻接矩阵,W(p)为第p层图卷积网络的权重参数;
c)对于第p层的邻接矩阵A(p),则根据第p-1层图卷积网络节点X(p-1)与其自身的相似度来计算得到,公式如下:
A(p)=softmax(W1X(p-1)(W2X(p-1))T)
其中,W1和W2为映射矩阵,上标T表示矩阵的转置运算;
d)将初始节点特征X(0)与最后一层的节点特征X(P)融合后得到GCN的输出,公式如下:
FR=X(P)+X(0)
其中,
Figure FDA0003504481130000031
为GCN生成的具有问题意识的物体关系特征,k表示检测出置信度得分最高的k个物体;将所有时间段的关系特征集合记为
Figure FDA0003504481130000032
F1 R表示第一个GCN网络捕获第一时刻的物体关系特征;
S7.对步骤S6所获得的具有问题意识的物体关系特征,使用GRU模型进行编码,将最后时刻的隐藏状态作为具有时序关系的视频特征;
S8.对步骤S7所获得的具有时序关系的视频特征,步骤S4所获得的问题特征进行低秩双线性融合得到融合特征,并使用softmax生成答案。
3.根据权利要求2所述的方法,其特征在于,步骤S1所述根据物体检测模型预测视频中物体标注框和类别标签,来提取物体空间特征和物体类别特征的具体方法是:采用目标检测模型Mask R-CNN检测出置信度得分最高的k个物体,根据其标注框和类别标签计算物体空间特征和物体类别特征;具体的计算过程如下:
a)计算物体空间特征:
Figure FDA0003504481130000041
其中,S={x,y,h,w },x和y为物体在视频帧中的坐标,h和w为物体边框的高度和宽度;MLP()是浅层的前馈神经网络,
Figure FDA0003504481130000042
表示FS在实数域
Figure FDA0003504481130000043
中的维度为ds,下标s表示物体空间特征的标记;
b)计算物体类别特征:
Figure FDA0003504481130000044
其中,EL为物体类别标签的词嵌入向量表示,
Figure FDA0003504481130000045
表示FL在实数域
Figure FDA00035044811300000411
中的维度为dl,下标l表示物体类别特征的标记。
4.根据权利要求3所述的方法,其特征在于,步骤S2所述提取子视频的视觉运动特征的具体方法是:使用子视频对齐模型对检测到置信度得分最高的k个物体进行空间和时间对齐,得到k个物体的子视频集合S={svk|1≤k≤K},其中,svk表示第k个物体的子视频,具体的计算过程如下:
a)计算物体图像的空间位置,则其中第i行j列像素点的坐标(xi,yj)计算方式如下:
Figure FDA0003504481130000046
其中,物体图像的左上角坐标原点为(0,0),原图像的像素大小为(W,H),双线性插值后的像素大小为(w,h);
b)计算物体图像的空间像素点,点P(x,y)为计算得到的像素采样点,该点的数值由其最近的四个像素点的数值按距离远近作为权重共同决定;因此,利用与P点最近的像素点Q11(x1,y1)、Q12(x1,y2)、Q21(x2,y1)和Q22(x2,y2)进行计算,首先计算点R1(x,y1)和R2(x,y2)的像素值f(R1)和f(R2),则公式如下:
Figure FDA0003504481130000047
Figure FDA0003504481130000048
再通过点R1、R2的像素值f(R1)和f(R2)来计算P点的像素值f(P),则公式如下:
Figure FDA0003504481130000049
c)使用物体图像的时间对齐模型,将原本长度不确定的n帧物体图像序列转化为长度固定的具有m帧的物体子视频;
d)将子视频svk拆分成N个剪辑,得到包含N个剪辑的集合
Figure FDA00035044811300000410
其中
Figure FDA0003504481130000051
表示第k个子视频中的第n个剪辑,利用C3D计算剪辑的运动特征:
Figure FDA0003504481130000052
其中,
Figure FDA0003504481130000053
表示FM在实数域
Figure FDA00035044811300000516
中的维度为dm,下标m表示剪辑运动特征的标记,Csv表示所有子视频的剪辑集合。
5.根据权利要求4所述的方法,其特征在于,步骤S3所述针对步骤S1计算得到的物体空间特征FS和物体类别特征FL,针对步骤S2计算得到的视觉运动特征FM进行特征融合得到物体联合特征FJ;具体的方法是:
Figure FDA0003504481130000054
dj=dm+ds+dl
其中[·;·;·]代表拼接融合操作,
Figure FDA0003504481130000055
表示FJ在实数域
Figure FDA0003504481130000056
中的维度为dj,下标j表示物体联合特征的标记。
6.根据权利要求5所述的方法,其特征在于,步骤S4所述对问题进行编码,获得问题特征,具体方法是:
a)针对一个问题Q={q1,q2,...,qM},对问题中的每个单词进行如下计算,得到词向量表示ri
pi=One-Hot(qi)
ri=Wepi,i∈{1,2,...,M}
其中,One-Hot()表示独热编码,它将问题中的单词qi转换成独热编码表示pi
Figure FDA0003504481130000057
为词嵌入矩阵,其中L为词汇表的长度,300是每一个单词qi的维度;
a)使用双向门循环单元模型Bi-GRU对词向量组{r1,r2,...,rM}进行如下编码:
Figure FDA0003504481130000058
其中,
Figure FDA0003504481130000059
表示正向GRU得到的隐状态序列,
Figure FDA00035044811300000510
表示反向GRU得到的隐状态序列,词向量组中i∈{1,2,....,M};
b)将Bi-GRU模型最后时刻输出隐状态结果
Figure FDA00035044811300000511
Figure FDA00035044811300000512
进行拼接,得到问题特征:
Figure FDA00035044811300000513
其中,[,]表示拼接操作,FQ表示问题特征,
Figure FDA00035044811300000514
表示FQ在实数域
Figure FDA00035044811300000515
中的维度为dq,下标q表示问题特征的标记。
7.根据权利要求6所述的方法,其特征在于,步骤S5所述针对步骤S3计算得到的物体联合特征和步骤S4计算得到的问题特征输入注意力模型中得到具有问题意识的联合特征的具体的方法是:
a)计算问题特征FQ与物体联合特征FJ的交互空间:
Figure FDA0003504481130000061
Figure FDA0003504481130000062
其中,
Figure FDA0003504481130000063
Figure FDA0003504481130000064
为可学习的权重矩阵,bQ和bJ为偏置向量;
Figure FDA0003504481130000065
是实数域
Figure FDA0003504481130000066
中dq×dj的矩阵,
Figure FDA0003504481130000067
是实数域
Figure FDA0003504481130000068
中dq×dj的矩阵;
b)使用缩放点积函数计算问题特征与物体联合特征的相似度矩阵
Figure FDA0003504481130000069
公式如下:
Figure FDA00035044811300000610
其中,
Figure FDA00035044811300000611
为映射到交互空间的问题特征转置表示,d为缩放因子,softmax()为归一化函数;
c)利用相似度矩阵与物体联合特征相乘得到具有问题意识的联合特征,公式如下:
Figure FDA00035044811300000612
其中,
Figure FDA00035044811300000613
表示
Figure FDA00035044811300000614
在实数域
Figure FDA00035044811300000615
中的维度为dj,下标j表示具有问题意识的联合特征的标记。
8.根据权利要求7所述的方法,其特征在于,
步骤S7所述得到具有时序关系的视频特征的方法是:
ht=GRU(Ft R,ht-1),1≤t≤N
其中,ht-1表示t-1时刻的隐藏状态特征,将最后时刻的隐藏状态hN输出记为具有时序关系的视频特征
Figure FDA00035044811300000616
FV在实数域
Figure FDA00035044811300000617
中的维度为dv,下标v表示具有时序关系的视频特征的标记;
步骤S8所述使用softmax函数计算生成答案的具体方法是:
a)将具有时序关系的视频特征FV与问题特征FQ输入到低秩双线性融合MLB模型中,得到融合特征z:
z=PTσ(UTFv⊙VTFQ)+b
其中P、U和V分别为三个可训练权重矩阵,b为偏置向量,σ为ReLU函数,⊙代表哈达玛积,上标T表示矩阵的转置操作;
b)使用softmax函数将融合特征z映射输出得分最高的答案类别
Figure FDA0003504481130000071
最终答案的计算公式如下:
Figure FDA0003504481130000072
其中,Wa是参数矩阵,ba是偏置向量。
9.一种计算机,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求2至8任一项所述的一种基于动态注意力与图网络推理的视频问答方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2至8任一项所述的一种基于动态注意力与图网络推理的视频问答方法。
CN202110908494.3A 2021-07-15 2021-08-09 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 Active CN113609355B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110801259 2021-07-15
CN2021108012596 2021-07-15

Publications (2)

Publication Number Publication Date
CN113609355A CN113609355A (zh) 2021-11-05
CN113609355B true CN113609355B (zh) 2022-06-03

Family

ID=78307660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110908494.3A Active CN113609355B (zh) 2021-07-15 2021-08-09 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN113609355B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385937A (zh) * 2023-04-07 2023-07-04 哈尔滨理工大学 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274800A (zh) * 2020-01-19 2020-06-12 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111339908A (zh) * 2020-02-24 2020-06-26 青岛科技大学 基于多模态信息融合与决策优化的组群行为识别方法
CN111858882A (zh) * 2020-06-24 2020-10-30 贵州大学 一种基于概念交互和关联语义的文本视觉问答系统及方法
EP3819790A2 (en) * 2020-06-30 2021-05-12 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for visual question answering, computer device and medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609B (zh) * 2017-06-27 2020-06-19 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274800A (zh) * 2020-01-19 2020-06-12 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111339908A (zh) * 2020-02-24 2020-06-26 青岛科技大学 基于多模态信息融合与决策优化的组群行为识别方法
CN111858882A (zh) * 2020-06-24 2020-10-30 贵州大学 一种基于概念交互和关联语义的文本视觉问答系统及方法
EP3819790A2 (en) * 2020-06-30 2021-05-12 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for visual question answering, computer device and medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Video Question Answering: a Survey of Models and Datasets》;Guanglu Sun等;《Mobile Networks and Applications》;20210125;1904–1937 *

Also Published As

Publication number Publication date
CN113609355A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
US11657230B2 (en) Referring image segmentation
CN109874029B (zh) 视频描述生成方法、装置、设备及存储介质
CN111433784B (zh) 用于检索视频时间段的方法、系统和计算机系统
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
JP2017091525A (ja) 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
Li et al. Multimodal architecture for video captioning with memory networks and an attention mechanism
CN109670168B (zh) 基于特征学习的短答案自动评分方法、系统及存储介质
CN113177141B (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN112634296A (zh) 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN112860847B (zh) 视频问答的交互方法及系统
CN113283336A (zh) 一种文本识别方法与系统
CN112149603A (zh) 一种基于跨模态数据增广的连续手语识别方法
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN113609355B (zh) 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN112949628B (zh) 一种基于嵌入-混合的轨迹数据增强及轨迹识别方法
CN115599954B (zh) 一种基于场景图推理的视频问答方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN113609330B (zh) 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant