CN111652357A - 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 - Google Patents

一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 Download PDF

Info

Publication number
CN111652357A
CN111652357A CN202010795120.0A CN202010795120A CN111652357A CN 111652357 A CN111652357 A CN 111652357A CN 202010795120 A CN202010795120 A CN 202010795120A CN 111652357 A CN111652357 A CN 111652357A
Authority
CN
China
Prior art keywords
video
target
question
encoder
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010795120.0A
Other languages
English (en)
Other versions
CN111652357B (zh
Inventor
赵洲
何金铮
顾茅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010795120.0A priority Critical patent/CN111652357B/zh
Publication of CN111652357A publication Critical patent/CN111652357A/zh
Application granted granted Critical
Publication of CN111652357B publication Critical patent/CN111652357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种利用基于图的特定目标网络解决视频问答问题的方法及其系统,属于视频问答文本生成领域。主要包括如下步骤:1)针对于一组视频、问题、答案训练集,训练一个跨模态编码器,学习出视频信息和问题信息的联合表征。2)对于跨模态编码器编码完成的得到视频问题联合表达的神经网络的输出,通过一个解答模块根据数据集的不同问题训练不同的解码器,输出针对于视频和问题联合表达的自然语言答案。本发明采用一个更加细粒度的基于图的关系敏感的编码器来获得视频问答中的目标关系,采用一个特定目标的时序编码器来捕获特定目标的同质动态视觉线索,采用轨迹优化算法,减轻了复杂场景下目标检测的不足,有效提升了视频问答的性能。

Description

一种利用基于图的特定目标网络解决视频问答问题的方法及 其系统
技术领域
本发明涉及视频问答文本生成,尤其涉及一种利用基于图的特定目标网络解决视频问答问题的方法。
背景技术
开放式的视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
视频问答是计算机视觉和自然语言处理之间的一个跨学科领域。一个视频问答模型不仅要理解视觉内容和文本内容,还要理解它们之间的相关性。随着对象检测技术的发展,越来越多的视频问答模型利用目标级视觉内容作为进一步推理步骤的重要可视线索。
但是现有的视频问答方法中忽略了目标之间的相互依赖关系,缺少了可以给视觉问答提供重要的视觉线索;且现有技术中对目标级别的视觉数据的处理方式仅仅使用注意力机制简化了目标级别的视觉信息,这会导致很多时序依赖信息和目标的动态信息的丢失。此外,视觉信息往往混杂了很多干扰信息,这会影响目标检测,比如在跟踪某个目标的轨迹时会出现照相问题、某些目标突然消失或者突然出现,一些噪声等,这会导致目标检测和轨迹推测很不稳定。
综上,现有技术中还不能有效地利用目标级的视觉信息,导致了在复杂场景应用中性能有限,难以满足高要求场景下的使用。
发明内容
本发明的目的在于解决现有技术中的问题,提出了一个更加细粒度的基于图的关系敏感的编码器来获得视频问答中的目标关系,同时本发明还提出了一个特定目标的时序编码器来捕获特定目标的同质动态视觉线索。除此之外,本发明还设计了一种更通用、更方便的轨迹优化算法,减轻了复杂场景下目标检测的不足。
本发明具体采用的一种利用基于图的特定目标网络解决视频问答问题的方法,包括如下步骤。
1)建立由跨模态编码网络和多解码网络组成的特定目标网络模型,所述的跨模态编码网络中包括一个针对特定目标的时序编码器、自注意力模块和多头注意力模块。
2)获取视频及问题语句;
对于一段视频,训练出针对特定目标的时序编码器来得到目标通道特征和轨迹特征;
对于一段视频及问题语句,分别利用自注意力模块获得全局相关的帧通道特征和问题通道特征。
3)将目标通道特征、轨迹特征、帧通道特征和问题通道特征作为多头注意力模块的输入,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果;将三个自注意力结果与问题通道特征通过级联和线性层处理后得到跨模态编码结果。
4)针对问题的不同形式构建不同的解码器,对跨模态编码结果进行解码,得到针对问题的预测答案;将获得的针对不同问题的预测答案与真实答案进行比较,更新跨模态编码网络和多解码网络的参数,得到最终的基于图的特定目标网络模型。
5)对于要预测答案的视频和问题,根据生成的最终的基于图的特定目标网络模型,得到所预测的答案。
本发明的另一目的在于提供了一种用于实现上述方法的系统。
包括:
视频及问题语句获取模块:用于获取视频及问题语句。
时序编码模块:用于读取视频及问题语句获取模块采集到的视频数据,输出目标通道特征和轨迹特征。
第一自注意力模块:用于将视频及问题语句获取模块输出的视频数据处理得到全局相关的帧通道特征。
第二自注意力模块:用于将视频及问题语句获取模块输出的问题语句处理得到问题通道特征。
多头注意力模块:用于将时序编码模块输出的目标通道特征和轨迹特征、以及第一自注意力模块输出的帧通道特征、第二自注意力模块输出的问题通道特征进行注意力操作,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果。
后处理模块:用于将多头注意力模块输出的三个自注意力结果与第二自注意力模块输出的问题通道特征进行级联和线性层处理,输出最终的编码结果。
解答模块:用于对编码结果进行解码操作,输出所预测的答案。
相对于传统方法,本发明有效提升了视频问答的性能,具体体现在以下三个方面。
(1)本发明采用了基于图的多种视觉编码器,包括空间图编码器、交互图编码器、语义图编码器,在处理目标特征和帧特征时都采用以目标特征作为图中顶点,而帧特征作为附加信息帮助更好地建模图模型,可以很好地建模目标之间的相互依赖性,解决了传统方法没有考虑目标之间的相互依赖性的缺陷,提升了视觉编码效果。
(2)针对传统方法忽略了目标的时序信息的缺陷,本发明提出了特定目标的时序编码器,包括了两个通道,建模了目标的时序信息和动态信息,提升了对视频中的目标的建模能力。
(3)针对传统方法中由于目标检测的缺陷导致轨迹推测不稳定的问题,本发明设计了一种更通用、更方便的轨迹优化算法,将dlib获取到的原始轨迹信息分类为确定轨迹和不确定轨迹,通过调整规则将相似的轨迹进行合并,最后将优化后的轨迹信息进行后处理后作为轨迹特征,减轻了复杂场景下目标检测的不足。
附图说明
图1是本发明所使用的特定目标的时序编码器的整体模型。
图2是本发明所使用的基于图的特定目标网络的整体模型。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1和2所示,本发明用基于图的特定目标网络解决视频问答问题的方法包括如下步骤。
步骤一、对于输入的视频及问题,训练一个跨模态编码器,学习出视频信息和问题信息的联合表征。
步骤二、对于输入的视频及问题,得到跨模态编码器编码完成的得到视频问题联合表达的神经网络的输出;通过一个解答模块根据数据集的不同问题训练不同的解码神经网络。
步骤三、对于要预测答案的视频和问题,根据生成的跨模态编码器和解码神经网络,得到所预测的答案。
在本发明的一项具体实施中,步骤一的实施过程如下:
1)建立由跨模态编码网络和多解码网络组成的特定目标网络模型,所述的跨模态编码网络中包括一个针对特定目标的时序编码器、自注意力模块和多头注意力模块。
2)获取视频及问题语句。
对于一段视频,训练出针对特定目标的时序编码器来得到目标通道特征D o 和轨迹特征D tra
对于一段视频及问题语句,分别利用自注意力模块获得全局相关的帧通道特征h f 和问题通道特征h q ;具体的,对于给定的问题文本,采用预训练好的GloVe模型进行词嵌入,随后采用自注意力模块进行编码,优选的,所述的自注意力模块采用Transformer中的自注意力模型。自注意力模型的计算公式如下h out =Atten(Q, K, V),这里的Atten是多头注意力机制,Q, K, V分别代表询问,键,值。对于给定的视频帧和问题,经过自注意力模型,得到编码的问题通道特征h q 和帧通道特征h f 。本发明获得了问题和视频的联合表征。
3)将目标通道特征D o 、轨迹特征D tra 、帧通道特征h f 和问题通道特征
Figure 155850DEST_PATH_IMAGE001
作为多头注 意力模块的输入,其中以问题通道特征h q 作为询问序列,分别与目标通道特征、轨迹特征、 帧通道特征通过多头注意力机制进行交互,输出三个自注意力结果;将三个自注意力结果 与问题通道特征经级联和线性层处理后得到跨模态编码结果。
具体的,针对特定目标的时序编码器包括两个通道,第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成;第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成。优选的,所述的帧级特征提取层采用ResNet网络,所述的目标级特征提取层采用Mask RCNN网络。
所述的空间图编码器用来获取目标之间的空间特征,语义图编码器和交互图编码器采用相同的结构,这两个编码器都是用来探索目标之间的相互的语义联系。对于空间图编码器,本发明通过可学习的方法控制信息传递。
具体为:
获取两个目标区域之间的相对位置特征,并进行位置编码,获得高维特征loc s
根据位置编码信息计算相对分数S uv =max(0,(w s loc s )),其中w s 是一个可学习的向量,loc s 是通过位置编码获得的高维特征。
本发明启发式地定义了四种常见的空间关系类型:包括、排除、与IoU的交互作用 大于0.5和与IoU的交互作用小于0.5,作为四种不同的边缘标签。由于这些关系类型不是消 息传递过程中的主要因素,本发明将它们设置为包含辅助空间关系分类的四种不同偏差
Figure 604149DEST_PATH_IMAGE002
空间图编码器采用的消息传递的公式为:
Figure 915044DEST_PATH_IMAGE003
其中,
Figure 841412DEST_PATH_IMAGE004
是可学习的矩阵,
Figure 186943DEST_PATH_IMAGE005
表示第l-1层第u个顶点的特征,u表示第u个顶点,
Figure 540563DEST_PATH_IMAGE002
表示偏差,
Figure 73176DEST_PATH_IMAGE006
表示顶点v相邻的顶点,
Figure 570279DEST_PATH_IMAGE007
表示Relu激活函数,
Figure 504737DEST_PATH_IMAGE008
表示第l层第v个顶点 的特征。
语义图编码器旨在探讨对象之间的相互关系。与空间图相似,本发明设置几种不 同的偏差
Figure 29259DEST_PATH_IMAGE002
作为辅助交互关系信息,分两步:(1)根据识别类型,将对象细分为三类:人、 动物和其他。(2)根据连接对象的分组,将相互关系分为人对动物、人对人、人对其他、动物 对动物、动物对人、动物对其他、其他对人、其他对动物、其他对其他共9种类型,每一种类型 对应不同的偏差
Figure 314747DEST_PATH_IMAGE002
。为了增强有效信息和减少不相关信息,本发明采用了自适应消息通 道策略。
对于目标u和v,本发明采用的信息传递公式为:
Figure 582917DEST_PATH_IMAGE009
其中,
Figure 637461DEST_PATH_IMAGE010
是常量,本发明取为0.5,
Figure 598463DEST_PATH_IMAGE011
是表示第l-1层第u个顶点的特征,
Figure 105668DEST_PATH_IMAGE012
是表 示第l层第v个顶点的特征,
Figure 911950DEST_PATH_IMAGE013
是表示第l-1层第v个顶点的特征,
Figure 585115DEST_PATH_IMAGE014
Figure 451439DEST_PATH_IMAGE015
Figure 445940DEST_PATH_IMAGE016
是参数矩 阵,
Figure 55913DEST_PATH_IMAGE017
是权重参数,
Figure 85049DEST_PATH_IMAGE006
表示和v相邻的顶点,
Figure 387854DEST_PATH_IMAGE018
是附加信息中的帧特征,
Figure 869651DEST_PATH_IMAGE007
是Relu激活函数,u表示第u个顶点,
Figure 283315DEST_PATH_IMAGE002
表示偏差。
交互图编码器和语义图编码器采用相同的信息传递公式,两种图编码器具备相同的结构。
在本发明的一项具体实施中,将给定的一段视频作为时序编码器两个通道的输入,采用帧级特征提取层获取视频的帧特征,采用目标级特征提取层获取每一个视频帧的目标区域特征;将帧特征和目标区域特征分别通过空间图编码器和交互图编码器进行处理,并将其输出进行融合,再采用语义图编码器获取编码后的目标通道特征D o ;所述的空间图编码器、交互图编码器、语义图编码器在处理帧特征和目标区域特征时,以目标区域特征作为图中顶点,以帧特征作为附加信息,用于辅助建模。
通过第二通道的轨迹提取层提取目标区域特征的原始轨迹信息,并对原始轨迹信息进行调整,调整后的轨迹提取器用来获得相对可靠的轨迹信息。
所述轨迹调整具体为:
采用dlib获取粗糙的原始轨迹信息。
将超过N def 个帧的轨迹分类成确定轨迹,其他的分类成不确定轨迹,本实施例中N def = 3。
对于确定轨迹集合中的任意两个轨迹,若两个轨迹不相交、两个目标种类相同且IOU>0.5,则找到这两个轨迹里面距离最近的两个目标,判断距离是否小于阈值,若是,则将两个轨迹合并;若上述条件有一个不满足则不合并。将不确定的轨迹和已经并好的确定性轨迹按照相同规则并起来。这样就完成了轨迹的调整。
调整后的轨迹信息经位置编码后输入到自注意力模块,再经卷积操作和压缩操作,最后采用语义图编码器获取编码后的轨迹特征D tra
在本发明的一项具体实施中,步骤二的实施过程如下:
对于输入的视频及问题,得到跨模态编码器编码完成的得到视频问题联合表达的神经网络的输出;通过一个解答模块根据数据集不同问题训练不同的解码神经网络。
针对以下四个问题:
帧问答:从视频的某一帧中获取问题的答案,并输出答案帧。
重复计数:获取某个特征动作在视频中的重复次数,并输出答案。
重复活动:针对待选择的特定动作,从视频中确定重复了特定次数的动作,并输出答案。
状态转换:针对目标动作、目标位置和目标属性的转变问题,并输出答案。
针对重复活动和状态转换问题,采用公式
Figure 901378DEST_PATH_IMAGE019
计算预测答案的概率,
Figure 876550DEST_PATH_IMAGE020
是可训练的参数矩阵,
Figure 845643DEST_PATH_IMAGE021
是跨模态编码网络的输出,对应的解码器采用hinge 损失函数 进行优化。
针对重复计数问题,采用公式
Figure 531839DEST_PATH_IMAGE022
计算预测答案的概率,
Figure 535567DEST_PATH_IMAGE023
是可训练的参数矩阵,b是偏差,对应的解码器采用采用
Figure 180175DEST_PATH_IMAGE024
损失函数进行优化。
对于帧问答问题,采用公式
Figure 636564DEST_PATH_IMAGE025
计算预测答案的概率,
Figure 392031DEST_PATH_IMAGE026
是可训练的参数矩阵,对应的解码器使用交叉熵损失函数进行优化。
本发明的另一目的在于提供了一种用于实现上述方法的系统。
包括:
视频及问题语句获取模块:用于获取视频及问题语句。
时序编码模块:用于读取视频及问题语句获取模块采集到的视频数据,输出目标通道特征和轨迹特征。
第一自注意力模块:用于将视频及问题语句获取模块输出的视频数据处理得到全局相关的帧通道特征。
第二自注意力模块:用于将视频及问题语句获取模块输出的问题语句处理得到问题通道特征。
多头注意力模块:用于将时序编码模块输出的目标通道特征和轨迹特征、以及第一自注意力模块输出的帧通道特征、第二自注意力模块输出的问题通道特征进行注意力操作,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果。
后处理模块:用于将多头注意力模块输出的三个自注意力结果与第二自注意力模块输出的问题通道特征进行级联和线性层处理,输出最终的编码结果。
解答模块:用于对编码结果进行解码操作,输出所预测的答案。
其中,所述的时序编码模块包括两个通道,第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成;第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成。
在本发明的一项具体实施中,所述的帧级特征提取层配置有ResNet网络,目标级特征提取层配置有Mask RCNN网络;其中空间图编码器用来获取目标之间的空间特征,语义图编码器和交互图编码器采用相同的结构,这两个编码器都是用来探索目标之间的相互的语义联系;语义图编码器能够在问题通道的指导下学习目标之间的关系。
在本发明的一项具体实施中,所述的轨迹调整层用于将粗糙的原始轨迹信息进行整理,用来获得相对可靠的轨迹信息。
其中,所述的解答模块包括四个解码器,每一个解码器针对不同的问题形式进行训练。
在本申请所提供的具体实施方式中,应该理解到,以上所描述的系统实施例仅仅是示意性的,例如所述时序编码模块,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接,可以是电性或其它的形式。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在TGIF-QA上面进行实验验证,本数据集包含71k条GIF片段以及165k问答对。在这个数据集种主要包括下面四个问题。
分别是:
1)帧问答:模型可以从视频中的某一帧获得答案。
2)重复计数:计数某个特定动作的重复次数。
3)重复活动:给出5个活动,模型选出重复了特定次数的活动。
4)状态转换:有关动作、位置和目标属性等状态特征的转变问题。
下面是本发明在上述数据集上面的实验结果。
表1 实验结果
方法 重复活动 状态转换 帧问答 重复计数
GR-ATT 68.8 73.9 53.0 4.32
本发明 74.8 82.4 57.5 4.22
实验结果中重复活动、状态转换、帧问答都是采用了准确率作为评测指标,而重复计数采用了均方误差作为重复指标。通过上述结果可以看出,本发明在各种问题上已经超过了现有的传统方法,说明本发明采用的多种视觉编码器很好地建模目标之间的相互依赖性,提升了视觉编码效果,并结合了目标的时序信息和优化的轨迹算法,提高了检测能力。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (10)

1.一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于包括如下步骤:
1)建立由跨模态编码网络和多解码网络组成的特定目标网络模型,所述的跨模态编码网络中包括一个针对特定目标的时序编码器、自注意力模块和多头注意力模块;
2)获取视频及问题语句;
对于一段视频,训练出针对特定目标的时序编码器来得到目标通道特征和轨迹特征;
对于一段视频及问题语句,分别利用自注意力模块获得全局相关的帧通道特征和问题通道特征;
3)将目标通道特征、轨迹特征、帧通道特征和问题通道特征作为多头注意力模块的输入,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果;将三个自注意力结果与问题通道特征通过级联和线性层处理后得到跨模态编码结果;
4)针对问题的不同形式构建不同的解码器,对跨模态编码结果进行解码,得到针对问题的预测答案;将获得的针对不同问题的预测答案与真实答案进行比较,更新跨模态编码网络和多解码网络的参数,得到最终的基于图的特定目标网络模型;
5)对于要预测答案的视频和问题,根据生成的最终的基于图的特定目标网络模型,得到所预测的答案。
2.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述的自注意力模块采用Transformer中的自注意力模型。
3.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述针对特定目标的时序编码器包括两个通道,第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成;第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成;
将给定的一段视频作为时序编码器两个通道的输入,采用帧级特征提取层获取视频的帧特征,采用目标级特征提取层获取每一个视频帧的目标区域特征;将帧特征和目标区域特征分别通过空间图编码器和交互图编码器进行处理,并将其输出进行融合,再采用语义图编码器获取编码后的目标通道特征;所述的空间图编码器、交互图编码器、语义图编码器在处理帧特征和目标区域特征时,以目标区域特征作为图中顶点,以帧特征作为附加信息;
通过第二通道的轨迹提取层提取目标区域特征的原始轨迹信息,并对原始轨迹信息进行调整,调整后的轨迹信息经位置编码后输入到自注意力模块,再经卷积操作和压缩操作,最后采用语义图编码器获取编码后的轨迹特征。
4.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述的帧级特征提取层采用ResNet网络。
5.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述的目标级特征提取层采用Mask RCNN网络。
6.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述空间图编码器,具体为:
获取两个目标区域之间的相对位置特征,并进行位置编码;
根据位置编码信息获得相对分数
Figure 942801DEST_PATH_IMAGE001
根据相对分数进行消息传递,所述消息传递的公式为:
Figure 758310DEST_PATH_IMAGE002
其中,
Figure 436416DEST_PATH_IMAGE003
是参数矩阵,
Figure 995573DEST_PATH_IMAGE004
表示第l-1层第u个顶点的特征,u表示第u个顶点,
Figure 708314DEST_PATH_IMAGE005
表 示偏差,
Figure 163566DEST_PATH_IMAGE006
表示与顶点v相邻的顶点集合,
Figure 594548DEST_PATH_IMAGE007
表示Relu激活函数,
Figure 691817DEST_PATH_IMAGE008
表示第l层第v个顶点 的特征。
7.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述第一通道中的语义图编码器和交互图编码器采用相同的结构,具体为:
根据目标识别类型,将目标分为人、动物和其他共3组;
根据目标之间的连接关系,分为人对动物、人对人、人对其他、动物对动物、动物对人、 动物对其他、其他对人、其他对动物、其他对其他共9种类型,每一种类型对应不同的偏差
Figure 259064DEST_PATH_IMAGE005
采用自适应消息通道策略进行消息传递,所述消息传递的公式为:
Figure 649332DEST_PATH_IMAGE009
其中,
Figure 567610DEST_PATH_IMAGE010
是常量,
Figure 202990DEST_PATH_IMAGE011
是表示第l-1层第u个顶点的特征,
Figure 624744DEST_PATH_IMAGE012
是表示第l层第v个顶 点的特征,W s W r W f 是参数矩阵,w i 是权重参数,
Figure 687378DEST_PATH_IMAGE006
表示与顶点v相邻的顶点集合,D f 是附加 信息中的帧特征,
Figure 827373DEST_PATH_IMAGE007
是Relu激活函数,u表示第u个顶点,b lab 表示偏差。
8.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述轨迹调整层具体为:
采用dlib获取原始轨迹信息;
将原始轨迹信息划分为确定轨迹集合和不确定轨迹集合;
对于确定轨迹集合中的任意两个轨迹,若两个轨迹不相交、两个目标种类相同且IOU>0.5,则寻找这两个轨迹里面距离最近的两个目标,判断距离是否小于阈值,若是,则将两个轨迹合并;否则不合并。
9.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,针对问题的不同形式构建不同的解码器,所述问题的形式包括:
帧问答:从视频的某一帧中获取问题的答案,并输出答案帧;
重复计数:获取某个特征动作在视频中的重复次数,并输出答案;
重复活动:针对待选择的特定动作,从视频中确定重复了特定次数的动作,并输出答案;
状态转换:针对目标动作、目标位置和目标属性的转变问题,并输出答案;
针对重复活动和状态转换问题,采用公式
Figure 532023DEST_PATH_IMAGE013
计算预测答案的概率,
Figure 73863DEST_PATH_IMAGE014
是参 数矩阵,
Figure 307398DEST_PATH_IMAGE015
是跨模态编码网络的输出,对应的解码器采用hinge 损失函数进行优化;
针对重复计数问题,采用公式
Figure 934689DEST_PATH_IMAGE016
计算预测答案的概率,
Figure 413337DEST_PATH_IMAGE017
是 参数矩阵,b是偏差,对应的解码器采用
Figure 809683DEST_PATH_IMAGE018
损失函数进行优化;
对于帧问答问题,采用公式
Figure 479699DEST_PATH_IMAGE019
计算预测答案的概率,
Figure 328706DEST_PATH_IMAGE020
是参 数矩阵,b是偏差,对应的解码器使用交叉熵损失函数进行优化。
10.一种用于实现权利要求1所述的利用基于图的特定目标网络解决视频问答问题的方法的系统,其特征在于,包括:
视频及问题语句获取模块:用于获取视频及问题语句;
时序编码模块:用于读取视频及问题语句获取模块采集到的视频数据,输出目标通道特征和轨迹特征;
第一自注意力模块:用于将视频及问题语句获取模块输出的视频数据处理得到全局相关的帧通道特征;
第二自注意力模块:用于将视频及问题语句获取模块输出的问题语句处理得到问题通道特征;
多头注意力模块:用于将时序编码模块输出的目标通道特征和轨迹特征、以及第一自注意力模块输出的帧通道特征、第二自注意力模块输出的问题通道特征进行注意力操作,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果;
后处理模块:用于将多头注意力模块输出的三个自注意力结果与第二自注意力模块输出的问题通道特征进行级联和线性层处理,输出最终的编码结果;
解答模块:用于对编码结果进行解码操作,输出所预测的答案。
CN202010795120.0A 2020-08-10 2020-08-10 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 Active CN111652357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010795120.0A CN111652357B (zh) 2020-08-10 2020-08-10 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010795120.0A CN111652357B (zh) 2020-08-10 2020-08-10 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统

Publications (2)

Publication Number Publication Date
CN111652357A true CN111652357A (zh) 2020-09-11
CN111652357B CN111652357B (zh) 2021-01-15

Family

ID=72346429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010795120.0A Active CN111652357B (zh) 2020-08-10 2020-08-10 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统

Country Status (1)

Country Link
CN (1) CN111652357B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464875A (zh) * 2020-12-09 2021-03-09 南京大学 一种视频中的人-物交互关系检测方法及装置
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112587129A (zh) * 2020-12-01 2021-04-02 上海影谱科技有限公司 一种人体动作识别方法及装置
CN113486875A (zh) * 2021-09-08 2021-10-08 浙江大学 基于词分离和自适应的跨域人脸表示攻击检测方法和系统
CN113538506A (zh) * 2021-07-23 2021-10-22 陕西师范大学 基于全局动态场景信息深度建模的行人轨迹预测方法
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113780370A (zh) * 2021-08-23 2021-12-10 咪咕文化科技有限公司 视觉问答方法、装置、设备及存储介质
CN115599954A (zh) * 2022-12-12 2023-01-13 广东工业大学(Cn) 一种基于场景图推理的视频问答方法
CN117315056A (zh) * 2023-11-27 2023-12-29 支付宝(杭州)信息技术有限公司 视频编辑方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN110727824A (zh) * 2019-10-11 2020-01-24 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法
CN111008302A (zh) * 2019-11-18 2020-04-14 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN111079532A (zh) * 2019-11-13 2020-04-28 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
US10719764B2 (en) * 2017-05-23 2020-07-21 Google Llc Attention-based sequence transduction neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10719764B2 (en) * 2017-05-23 2020-07-21 Google Llc Attention-based sequence transduction neural networks
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN110727824A (zh) * 2019-10-11 2020-01-24 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
CN111079532A (zh) * 2019-11-13 2020-04-28 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN111008302A (zh) * 2019-11-18 2020-04-14 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN110929092A (zh) * 2019-11-19 2020-03-27 国网江苏省电力工程咨询有限公司 一种基于动态注意力机制的多事件视频描述方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112587129B (zh) * 2020-12-01 2024-02-02 上海影谱科技有限公司 一种人体动作识别方法及装置
CN112587129A (zh) * 2020-12-01 2021-04-02 上海影谱科技有限公司 一种人体动作识别方法及装置
CN112464875A (zh) * 2020-12-09 2021-03-09 南京大学 一种视频中的人-物交互关系检测方法及装置
CN113536952A (zh) * 2021-06-22 2021-10-22 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN113538506A (zh) * 2021-07-23 2021-10-22 陕西师范大学 基于全局动态场景信息深度建模的行人轨迹预测方法
CN113780370A (zh) * 2021-08-23 2021-12-10 咪咕文化科技有限公司 视觉问答方法、装置、设备及存储介质
CN113780370B (zh) * 2021-08-23 2024-05-07 咪咕文化科技有限公司 视觉问答方法、装置、设备及存储介质
CN113486875A (zh) * 2021-09-08 2021-10-08 浙江大学 基于词分离和自适应的跨域人脸表示攻击检测方法和系统
CN115599954A (zh) * 2022-12-12 2023-01-13 广东工业大学(Cn) 一种基于场景图推理的视频问答方法
CN117315056A (zh) * 2023-11-27 2023-12-29 支付宝(杭州)信息技术有限公司 视频编辑方法及装置
CN117315056B (zh) * 2023-11-27 2024-03-19 支付宝(杭州)信息技术有限公司 视频编辑方法及装置

Also Published As

Publication number Publication date
CN111652357B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
Ma et al. Joint embedding VQA model based on dynamic word vector
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN111400591B (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN111401174B (zh) 一种基于多模态信息融合的排球群体行为识别方法
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
CN114970517B (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN111931549B (zh) 一种基于多任务非自回归解码的人体骨架的动作预测方法
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN117351550A (zh) 基于有监督对比学习的网格自注意力人脸表情识别方法
CN110472746B (zh) 一种基于人工智能的编码预测方法和系统
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN117315070A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN110889505B (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
CN117112786A (zh) 一种基于图注意力网络的谣言检测方法
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN112215346B (zh) 一种实现类人通用人工智能机器的方法
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN117173715A (zh) 一种注意力视觉问答方法、装置、电子设备及存储介质
CN114168769B (zh) 基于gat关系推理的视觉问答方法
CN117034133A (zh) 一种数据处理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant