CN110990630A - 一种基于图建模视觉信息的利用问题指导的视频问答方法 - Google Patents

一种基于图建模视觉信息的利用问题指导的视频问答方法 Download PDF

Info

Publication number
CN110990630A
CN110990630A CN201911201018.7A CN201911201018A CN110990630A CN 110990630 A CN110990630 A CN 110990630A CN 201911201018 A CN201911201018 A CN 201911201018A CN 110990630 A CN110990630 A CN 110990630A
Authority
CN
China
Prior art keywords
graph
question
video
feature
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911201018.7A
Other languages
English (en)
Other versions
CN110990630B (zh
Inventor
高跃
陈自强
赵曦滨
万海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201911201018.7A priority Critical patent/CN110990630B/zh
Publication of CN110990630A publication Critical patent/CN110990630A/zh
Application granted granted Critical
Publication of CN110990630B publication Critical patent/CN110990630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/787Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于图建模视觉信息的利用问题指导的视频问答方法,包括:步骤1,获取训练视频的视觉特征和训练问题的问题特征,利用逐项积算法,计算时序注意力特征;步骤2,利用物体检测框架,计算训练视频的物体特征,并确定显式图建模特征;步骤3,利用时序注意力特征和显式图建模特征,进行第0维点乘运算,生成全局视频特征向量;步骤4,根据问题特征和全局视频特征向量,确定全局特征值,并根据全局特征值和训练问题对应的问题答案,更新显式图模型;步骤5,根据更新后的显式图模型,确定视频问题的问题答案。通过本申请中的技术方案,在时间和空间两个维度更加有效地挖掘视频信息,以提高视频问答任务的性能。

Description

一种基于图建模视觉信息的利用问题指导的视频问答方法
技术领域
本申请涉及视频问答的技术领域,具体而言,涉及一种基于图建模视觉信息的利用问题指导的视频问答方法。
背景技术
近年来,由于视觉问答(Visual Question Answering,VQA)在诸如教育、机器人、智能助理等领域的广泛使用,受到了研究者的广泛关注。视觉问答是指给定视觉的材料,如视频或图像,并给定自然语言描述的问题,要求能够根据视觉材料回答相应的问题。
视觉问答主要可以分为图像问答和视频问答两个领域。由于深度学习技术在图像语义理解上的巨大成功,许多模型在图像问答任务已经有着不错的表现。但是,另一方面,现有的视频问答的方法的表现仍然难以令人满意。这是由于相较于图像,视频增加了时序这一维度,导致神经网络除了需要在单帧图像的空间特征中寻找问题答案的线索之外,还需要在多帧图像的时序信息中找到线索。
对于视觉问答而言,由于需要同时处理视觉信息和自然语言信息,因此,如何将视觉和文字两种模态的信息有效融合起来亦是关键。在视频问答上,目前有使用诸如一维空间卷积或长短期记忆网络等时序注意力机制对多帧视觉特征进行融合的方法,但是缺少在时间和空间两个角度分别对视频进行建模的方法。
发明内容
本申请的目的在于:解决现有技术中的问题,为了克服现有技术中缺少同时从时间和空间两个维度分别使用问题信息指导神经网络进行视觉特征抽取的问题。本申请引入图建模的方式来建模单帧图像的空间信息,使用问题向量与视觉信息融合生成的特征,来指导神经网络在建模多帧图像的时序信息,从而在时间和空间两个维度更加有效地挖掘视频信息,并融合视频信息与问题信息,以提高视频问答任务的性能。
本申请的技术方案是:提供了一种基于图建模视觉信息的利用问题指导的视频问答方法,该方法包括:步骤1,获取训练视频的视觉特征V和训练问题的问题特征Q,利用逐项积算法,计算时序注意力特征Qt;步骤2,利用物体检测框架,计算训练视频的物体特征VB,根据物体特征VB建立显式图模型,并确定显式图建模特征VG;步骤3,利用时序注意力特征Qt和显式图建模特征VG,进行第0维点乘运算,生成全局视频特征向量VF;步骤4,根据问题特征Q和全局视频特征向量VF,确定全局特征值J,并根据所示全局特征值J和训练问题对应的问题答案,优化显式图模型的参数,根据优化后的参数,更新显式图模型;步骤5,根据更新后的显式图模型,分析待识别视频,确定视频问题的问题答案。
上述任一项技术方案中,进一步地,步骤1中,具体包括:步骤11,将视觉特征V的维度扩展为Tx300维,计算问题特征Q与视觉特征V进行逐项积,并通过Softmax分类器计算问题权重Qw;步骤12,将问题权重Qw和问题特征Q进行逐项积运算,得到时序注意力特征Qt
上述任一项技术方案中,进一步地,问题权重Qw的计算公式为:
Figure BDA0002295873130000021
Figure BDA0002295873130000022
Figure BDA0002295873130000023
式中,
Figure BDA0002295873130000024
为问题特征Q中的第i个词向量的分数,i=1,2,…,T,T为词向量的个数,T为设定值,
Figure BDA0002295873130000025
为分数权重,为一个可学习参数,
Figure BDA0002295873130000026
为视觉特征V和第i个词向量qi的融合参数,qi是问题特征Q中第i个词的词向量,
Figure BDA0002295873130000027
为视频权重,
Figure BDA0002295873130000028
为词权重,
Figure BDA0002295873130000029
Figure BDA00022958731300000210
均为可学习参数。
上述任一项技术方案中,进一步地,步骤2中,具体包括:步骤21,根据训练视频中每一帧图像,建立一张图,并将图中的物体作为图节点,连接任意两个图节点,并将该连线记作图边,生成图邻接矩阵AB x B;步骤22,使用物体特征VB对邻接矩阵AB x B进行初始化,其中,图节点的初始化特征计算公式为:
f(xk,i)=VB[k][i]
式中,f(xk,i)为第k张图的第i个图节点的初始特征值,VB[k][i]为物体特征VB中第一维取值为k、且第二维取值为i时对应的特征取值,
图边的初始化计算公式为:
Ai,j=|f(xk,i)-f(xk,j)|
式中,Ai,j为第k张图中第i个图节点和第j个图节点之间的图边的初始值;
步骤23,将初始化后的邻接矩阵AB x B对应的图边值Ai,j,带入迭代多层神经网络,根据迭代结果更新邻接矩阵AB x B,并将更新后的N个邻接矩阵AB x B进行拼接,采用池化层对拼接后的N个邻接矩阵AB x B进行池化,确定显式图建模特征VG
上述任一项技术方案中,进一步地,迭代多层神经网络的计算公式为:
Figure BDA0002295873130000031
式中,Ai,j′表示图节点i到图节点j(1<=i,j<=B)的图边的迭代值,MLP表示多层神经网络单元,f(xi)表示图节点xi的特征,即构造图节点初始值时使用的物体特征VB中第i个物体的特征,其维度为C维。
本申请的有益效果是:
本申请中的技术方案,利用逐项积算法,根据训练视频的视觉特征和训练问题的问题特征,获取时间维度的特征,即时序注意力特征,用于指导图模型显式从视觉特征中的时间和空间两个维度分别挖掘特征,从而能够挖掘与问题有强关联的特征。
本申请通过使用图显式建模的方式,能够更好的捕捉物体之间的关系,从而得到具有物体语义表征的视觉特征表示,以提高视频问答任务的性能,提高现有视频问答的准确率和召回率。
附图说明
本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请的一个实施例的基于图建模视觉信息的利用问题指导的视频问答方法的示意流程图;
图2是根据本申请的一个实施例的计算过程的示意图;
图3是根据本申请的一个实施例的显式图模型训练过程的示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
在下面的描述中,阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
如图1和图2所示,本实施例提供了一种基于图建模视觉信息的利用问题指导的视频问答方法,包括:
步骤1,获取训练视频的视觉特征V和训练问题的问题特征Q,利用逐项积算法,计算时序注意力特征Qt
具体的,训练数据中包括多个训练视频,每一个训练视频对应若干个训练问题和相应的问题答案,通过训练数据,对显式图模型进行建模和参数训练,其中,对于每一个训练视频而言,采用平均采样法,获取N帧图像,对于不足N帧图像的训练视频,进行重复采样,直到获取到N帧图像,音轨被删除。训练问题中词的个数不超过T个,若长度超过T,训练问题会被截断至T个词,若不足T个词,训练问题将会使用占位符补齐至T个词。而问题答案,将形成的无重复元素的集合,被用于生成从数字到问题答案的映射表,记所有问题答案数量为M,则每个问题答案被标记为0到M-1中的一个数字,该数字将被用于判断视频回答是否正确。
本实施例采用斯坦福大学发布的预训练好的英文单词的词向量表示GloVe,所提供的向量表,将包含T个词的训练问题,转化为300维的词向量表示,然后进行拼接处理,生成问题特征Q,该问题特征Q包含了训练问题的语义特征,其维度为T x 300,即问题特征Q中包含T个词向量,每个词向量的维度为1x300。
通过ResNet152网络,载入在微软发布的物体检测数据集COCO上预训练过的模型,取倒数第二层全连接层的特征,将N帧图像的特征进行拼接,得到视觉特征V,其特征维度为N x C,其中,C的取值是2048。
进一步的,该步骤1中,具体包括:
首先,将视觉特征V的维度扩展为Tx300维,计算问题特征Q与视觉特征V进行逐项积,并通过Softmax分类器计算问题权重Qw,其中,问题权重Qw的计算公式为:
Figure BDA0002295873130000051
Figure BDA0002295873130000052
Figure BDA0002295873130000053
式中,
Figure BDA0002295873130000054
为第i个词向量的分数,i=1,2,…,T,T为词向量的个数,T为设定值,
Figure BDA0002295873130000055
为分数权重,为一个可学习参数,
Figure BDA0002295873130000056
为视觉特征V和第i个词向量qi的融合参数,qi是问题特征Q中第i个词的词向量,
Figure BDA0002295873130000057
为视频权重,
Figure BDA0002295873130000058
为词权重,
Figure BDA0002295873130000059
Figure BDA00022958731300000510
均为可学习参数。
具体的,虽然视觉特征V和问题特征Q分别来自于两种不同的模态信息,但由于它们都包含了对同一事物的描述,例如,视频内容为一个男人开门后坐下,对应的训练问题为:男人开门后在做什么?通过上述过程,可以确定的视觉特征V和问题特征Q,都包含对男人、开门的描述。
因此,在高维空间的特征表示中,不同模态的特征,在这个高维空间的分布结构,具有一定的相似性,利用逐项积算法,进行特征相乘时,互相关联的信息能够被保留下来,因此,可以将保留的信息作为词权重Qw
其次,再将问题权重Qw和问题特征Q进行逐项积运算,得到时序注意力特征Qt,其维度为Nx1维。
步骤2,利用物体检测框架,计算所述训练视频的物体特征VB,根据所述物体特征VB建立显式图模型,并确定显式图建模特征VG
具体的,将训练视频的N帧图像依次通过物体检测框架,本实施例中,采用MaskRcnn作为物体检测框架,选取roi_pooling层特征作为各个方框的特征,再选取置信度最高的B个方框,得到维度为N x B x C维的特征,记作训练视频的物体特征VB
在本实施例中,利用邻接矩阵AB x B表示显式图模型,该矩阵中元素Ai,j表示图节点i到图节点j的边,其特征维度为C维。
进一步的,步骤2中,具体包括:
图节点利用物体特征VB(其维度为N x B x C),将其拆解为N个BxC特征,分别构造N个图,每个图含有B个节点,每个节点的特征是C维,代表了在这N帧图像中,每帧图像中B个物体各自的特征。
步骤21,根据所述训练视频中每一帧图像,建立一张图,并将所述图中的物体作为图节点,连接任意两个图节点,并将该连线记作图边,生成图邻接矩阵AB x B,其中,所述图边的数量为B x B条,所述图节点用C维向量B x C表示。
具体的,对于从训练视频中采样出来的N帧图像,对每一帧图像建一张图,共有N张图。对每一张图,将图中的每一个物体作为一个图节点,共有B个图节点,每两个图节点之间都有两条边,即有B x B条边,每个图节点使用C维向量表示,每个边使用C维向量表示,则该图边可表示为图邻接矩阵AB x B,图节点的表示为B x C,边的表示为B x B x C,其中,图边利用图节点进行初始化。
步骤22,使用物体特征VB对所述邻接矩阵AB x B进行初始化,其中,图节点的初始化特征计算公式为:
f(xk,i)=VB[k][i]
式中,f(xk,i)为第k张图的第i个图节点的初始特征值,VB[k][i]为物体特征VB中第一维取值为k、且第二维取值为i时对应的特征取值。
图边的初始化计算公式为:
Ai,j=|f(xk,i)-f(xk,j)|
式中,Ai,j为第k张图中第i个图节点和第j个图节点之间的图边的初始值,i=1,2,…,B,j=1,2,…,B。
对于第k个图(1<=k<=N)的邻接矩阵AB x B,通过如下方式初始化:
首先初始化图节点特征,图节点的表示为B x C。对于第i个图节点(0<=i<=B)f(xk,i),使用物体特征VB(维度为N x B x C)初始化。具体的,第k幅图中第i个图节点的特征表示为:
f(xk,i)=VB[k][i]
然后初始化边的特征,边的表示为B x B x C。记邻接矩阵AB x B中第个节点到第j个图节点的有向边的表示为Ai,j。对于Ai,j(1<=i,j<=B),其值初始化为:
Ai,j=|f(xk,i)-f(xk,j)|
步骤23,将初始化后的邻接矩阵AB x B对应的图边值Ai,j,带入迭代多层神经网络,根据迭代结果更新邻接矩阵AB x B,并将更新后的N个邻接矩阵AB x B进行拼接,采用池化层对拼接后的N个邻接矩阵AB x B进行池化,确定显式图建模特征VG
利用图边的值Ai,j,以显式建模图内各个节点之间的关系,迭代多层神经网络的计算公式为:
Figure BDA0002295873130000071
式中,Ai,j′表示图节点i到图节点j(1<=i,j<=B)的图边的迭代值,MLP表示多层神经网络单元,f(xi)表示图节点xi的特征,即构造图节点初始值时使用的物体特征VB中第i个物体的特征,其维度为C维。
根据图边的迭代值Ai,j ,更新邻接矩阵AB x B,将更新后的N个邻接矩阵AB x B拼接起来,得到N x B x B x C的特征,经过池化层消去最后一维,本实施例中,采用max_pooling作为池化层,得到N x B x B的显式图建模特征VG,以表示不同帧图像的特征。
步骤3,利用所述时序注意力特征Qt和所述显式图建模特征VG,进行第0维点乘运算,生成全局视频特征向量VF
具体的,将时序注意力特征Qt和显式图建模特征VG,进行第0维点乘运算,如上所述,时序注意力特征Qt的维度为N x 1,以表示N帧图像的重要性,显式图建模特征VG的维度为N x B x B,在进行第0维点乘运算时,将会消去时序N这一维度,实现赋予不同帧图像不同的重要性,使得包含有能够回答问题的关键帧的特征更好的被保留下来,并通过池化操作消去第0维,通过全连接层转换为最终的全局视频特征向量VF
步骤4,根据所述问题特征Q和所述全局视频特征向量VF,确定全局特征值J,并根据全局特征值J和所述训练问题对应的问题答案,优化所述显式图模型的参数,根据所述参数,更新所述显式图模型;
具体的,如图3所示,将问题特征Q与全局视频特征向量VF进行拼接,通过两层全连接层,转化为M维的全局特征值J,以表示训练视频和训练问题间的最终的融合特征,其中,M是训练数据中问题答案的数量。
对训练数据中所有的答案进行编号,其编号为1-M。因此,在对待识别视频进行测试问题问答时,显式图模型输出的答案编号为1-M中的一个。
使用Softmax函数将全局特征值J转化为分类结果R,其维度为M维,该向量中每个值为0-1的实数,表示答案为该编号的概率。取概率最高的答案编号作为网络的输出答案。
确定输出答案之后,将输出答案与训练问题对应的问题答案进行比较,利用损失函数,计算输出答案和显式图模型的损失,进行反向传播(Backpropagate),调整显式图模型中的参数,对网络进行训练。
本实施例中,使用Adam作为优化器,进行优化的显式图模型的参数包括:batchsize设为16,初始学习率为0.01,并每隔30个周期进行一次衰减,衰减率为0.1;weight_decay值为1e-6。
步骤5,根据更新后的显式图模型,分析待识别视频,确定视频问题的问题答案。
通过将本实施例中视频问答方法与现有技术中的视频问答方法相比,经过大量的数据验证,本实施例中视频问答方法的性能、准确率,明显优于现有技术中的视频问答方法。
以上结合附图详细说明了本申请的技术方案,本申请提出了一种基于图建模视觉信息的利用问题指导的视频问答方法,该方法包括:步骤1,获取训练视频的视觉特征V和训练问题的问题特征Q,利用逐项积算法,计算时序注意力特征Qt;步骤2,利用物体检测框架,计算训练视频的物体特征VB,根据物体特征VB建立显式图模型,并确定显式图建模特征VG;步骤3,利用时序注意力特征Qt和显式图建模特征VG,进行第0维点乘运算,生成全局视频特征向量VF;步骤4,根据问题特征Q和全局视频特征向量VF,确定全局特征值J,并根据全局特征值J和训练问题对应的问题答案,优化显式图模型的参数,根据参数,更新显式图模型;步骤5,根据更新后的显式图模型,分析待识别视频,确定视频问题的问题答案。通过本申请中的技术方案,在时间和空间两个维度更加有效地挖掘视频信息,以提高视频问答任务的性能。
本申请中的步骤可根据实际需求进行顺序调整、合并和删减。
本申请装置中的单元可根据实际需求进行合并、划分和删减。
尽管参考附图详地公开了本申请,但应理解的是,这些描述仅仅是示例性的,并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims (5)

1.一种基于图建模视觉信息的利用问题指导的视频问答方法,其特征在于,该方法包括:
步骤1,获取训练视频的视觉特征V和训练问题的问题特征Q,利用逐项积算法,计算时序注意力特征Qt
步骤2,利用物体检测框架,计算所述所述训练视频的物体特征VB,根据所述物体特征VB建立显式图模型,并确定显式图建模特征VG
步骤3,利用所述时序注意力特征Qt和所述显式图建模特征VG,进行第0维点乘运算,生成全局视频特征向量VF
步骤4,根据所述所述问题特征Q和所述全局视频特征向量VF,确定全局特征值J,并根据所示全局特征值J和所述训练问题对应的问题答案,优化所述显式图模型的参数,根据优化后的所述参数,更新所述显式图模型;
步骤5,根据更新后的显式图模型,分析待识别视频,确定视频问题的问题答案。
2.如权利要求1所述的基于图建模视觉信息的利用问题指导的视频问答方法,其特征在于,其特征在于,步骤1中,具体包括:
步骤11,将所述视觉特征V的维度扩展为Tx300维,计算所述问题特征Q与所述视觉特征V进行逐项积,并通过Softmax分类器计算问题权重Qw
步骤12,将所述问题权重Qw和所述问题特征Q进行逐项积运算,得到所述时序注意力特征Qt
3.如权利要求2所述的基于图建模视觉信息的利用问题指导的视频问答方法,其特征在于,其特征在于,所述问题权重Qw的计算公式为:
Figure FDA0002295873120000011
Figure FDA0002295873120000012
式中,
Figure FDA0002295873120000021
为所述问题特征Q中的第i个词向量的分数,i=1,2,…,T,T为词向量的个数,T为设定值,
Figure FDA0002295873120000022
为分数权重,为一个可学习参数,
Figure FDA0002295873120000023
为所述视觉特征V和第i个词向量qi的融合参数,qi是所述问题特征Q中第i个词的词向量,
Figure FDA0002295873120000024
为视频权重,
Figure FDA0002295873120000025
为词权重,
Figure FDA0002295873120000026
Figure FDA0002295873120000027
均为可学习参数。
4.如权利要求1所述的基于图建模视觉信息的利用问题指导的视频问答方法,其特征在于,步骤2中,具体包括:
步骤21,根据所述训练视频中每一帧图像,建立一张图,并将所述图中的物体作为图节点,连接任意两个图节点,并将该连线记作图边,生成图邻接矩阵ABxB
步骤22,使用所述物体特征VB对所述邻接矩阵ABxB进行初始化,其中,所述图节点的初始化特征计算公式为:
f(xk,i)=VB[k][i]
式中,f(xk,i)为第k张图的第i个图节点的初始特征值,VB[k][i]为物体特征VB中第一维取值为k、且第二维取值为i时对应的特征取值。
所述图边的初始化计算公式为:
Ai,j=|f(xk,i)-f(xk,j)|
式中,Ai,j为第k张图中第i个图节点和第j个图节点之间的图边的初始值;
步骤23,将初始化后的邻接矩阵ABxB对应的图边值Ai,j,带入迭代多层神经网络,根据迭代结果更新邻接矩阵ABxB,并将更新后的N个邻接矩阵ABxB进行拼接,采用池化层对拼接后的N个邻接矩阵ABxB进行池化,确定所述显式图建模特征VG
5.如权利要求4所述的基于图建模视觉信息的利用问题指导的视频问答方法,其特征在于,所述迭代多层神经网络的计算公式为:
Figure FDA0002295873120000028
式中,Ai,j′表示图节点i到图节点j(1<=i,j<=B)的图边的迭代值,MLP表示多层神经网络单元,f(xi)表示图节点xi的特征,即构造图节点初始值时使用的物体特征VB中第i个物体的特征,其维度为C维。
CN201911201018.7A 2019-11-29 2019-11-29 一种基于图建模视觉信息的利用问题指导的视频问答方法 Active CN110990630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911201018.7A CN110990630B (zh) 2019-11-29 2019-11-29 一种基于图建模视觉信息的利用问题指导的视频问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911201018.7A CN110990630B (zh) 2019-11-29 2019-11-29 一种基于图建模视觉信息的利用问题指导的视频问答方法

Publications (2)

Publication Number Publication Date
CN110990630A true CN110990630A (zh) 2020-04-10
CN110990630B CN110990630B (zh) 2022-06-24

Family

ID=70088433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911201018.7A Active CN110990630B (zh) 2019-11-29 2019-11-29 一种基于图建模视觉信息的利用问题指导的视频问答方法

Country Status (1)

Country Link
CN (1) CN110990630B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582587A (zh) * 2020-05-11 2020-08-25 深圳赋乐科技有限公司 一种视频舆情的预测方法及预测系统
CN113505536A (zh) * 2021-07-09 2021-10-15 兰州理工大学 一种优化的基于时空图卷积网络的交通流预测模型

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110399518A (zh) * 2019-06-17 2019-11-01 杭州电子科技大学 一种基于图卷积的视觉问答增强方法
WO2019211250A1 (en) * 2018-04-30 2019-11-07 Koninklijke Philips N.V. Visual question answering using on-image annotations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
WO2019211250A1 (en) * 2018-04-30 2019-11-07 Koninklijke Philips N.V. Visual question answering using on-image annotations
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110399518A (zh) * 2019-06-17 2019-11-01 杭州电子科技大学 一种基于图卷积的视觉问答增强方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582587A (zh) * 2020-05-11 2020-08-25 深圳赋乐科技有限公司 一种视频舆情的预测方法及预测系统
CN111582587B (zh) * 2020-05-11 2021-06-04 深圳赋乐科技有限公司 一种视频舆情的预测方法及预测系统
CN113505536A (zh) * 2021-07-09 2021-10-15 兰州理工大学 一种优化的基于时空图卷积网络的交通流预测模型

Also Published As

Publication number Publication date
CN110990630B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN109597891B (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN111291183B (zh) 利用文本分类模型进行分类预测的方法及装置
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
KR20210124901A (ko) 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN114398961A (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
CN108182260B (zh) 一种基于语义选择的多变量时间序列分类方法
CN112883741B (zh) 基于双通道图神经网络的特定目标情感分类方法
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN110879938A (zh) 文本情感分类方法、装置、设备和存储介质
CN110413769A (zh) 场景分类方法、装置、存储介质及其电子设备
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN112733768A (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN110990630B (zh) 一种基于图建模视觉信息的利用问题指导的视频问答方法
CN114841142A (zh) 文本生成方法、装置、电子设备和存储介质
CN113435430A (zh) 基于自适应时空纠缠的视频行为识别方法、系统、设备
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant