CN115599954B - 一种基于场景图推理的视频问答方法 - Google Patents

一种基于场景图推理的视频问答方法 Download PDF

Info

Publication number
CN115599954B
CN115599954B CN202211587240.7A CN202211587240A CN115599954B CN 115599954 B CN115599954 B CN 115599954B CN 202211587240 A CN202211587240 A CN 202211587240A CN 115599954 B CN115599954 B CN 115599954B
Authority
CN
China
Prior art keywords
video
features
attention
information
scene graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211587240.7A
Other languages
English (en)
Other versions
CN115599954A (zh
Inventor
刘文印
林大润
梁达勇
陈俊洪
西木
黄可思
钟经谋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Minglong Electronic Technology Co ltd
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211587240.7A priority Critical patent/CN115599954B/zh
Publication of CN115599954A publication Critical patent/CN115599954A/zh
Application granted granted Critical
Publication of CN115599954B publication Critical patent/CN115599954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于场景图推理的视频问答方法,包括,获取视频数据,并通过场景图生成算法对视频数据进行处理得到无偏场景图数据;对视频数据进行特征提取得到视频特征并获取问题特征,通过多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;基于共现信息,通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息;对所述答案线索信息及特征信息进行解码,得到视频问答答案信息以实现视频问答。

Description

一种基于场景图推理的视频问答方法
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于场景图推理的视频问答方法。
背景技术
在人类的水平上理解视频内容是一种高级的视觉智能。为了实现这一目标,研究人员已经研究了诸如物体检测、语义分割和视频摘要等中间任务。最近,人们对许多连接语言和视觉的任务越来越感兴趣,这些任务旨在表现更接近人类理解水平的能力。许多研究人员致力于视觉问题回答 (Visual Question Answer,简称VQA),它具有两个重要特性:(1)需要理解视觉观察的特定部分才能回答问题;(2)每个问题的相关答案空间要更少。由于这些特性,视觉问答已成为在更精细的细节水平上替代人类视觉理解的可行替代方案。在人机交互以及智能问答等科技产品上都有所应用。
视频问答(Video QA)在视频检索、智能问答系统和自动驾驶等方面的广泛应用受到越来越广泛的关注。与图像问答相比,视频问答更具挑战性,因为视频问答需要处理具有丰富外观和运动信息的长序列图像,而不是单一的静态图像。并且视频中存在大量的时间线索,视频问答需要更多的时间推理来回答相关问题,例如动作过渡和计数任务。大多数现有方法使用递归神经网络(RNN)及其变体进行编码。最近研究人员使用时空注意机制,也有文献使用视频的卷积神经网络(CNN)提取文本的语义嵌入和空间特征用于学习外观运动表示或记忆增强,旨在捕获依赖于更大时间尺度的文本和视频之间的语义关系。虽然这些方法在基准数据集上取得了有竞争力的结果,但在很大程度上忽略了视频文本和外观运动信息之间的多层次交互。此外,在使用共同注意表征和记忆增强共同表征时,可能会进一步影响各自视觉信息的学习。近期人们发现基于从视觉信息中挖掘出结构化信息(例如场景图等),再根据问题中隐含的线索能更准确地推理出答案。由于目前关于此类挖掘结构化信息的视觉问答解决思路和方法较少,本专利提出的基于场景图的推理方法很有潜力。
最近相似的实现方案是基于Transformer的视频问答表示网络。该方法使用多头注意力层(Multi-Head Self Attention)或多头跨注意力层(Multi-Head Co-Attention)融合多模态的信息来学习通用的表示,并设计一些特定的监督任务以有助于视频问答Transformer模型的学习,最后将得到的特征输入到解码器中得到答案。上述现有技术中存在如下的问题,针对视频问答,部分模型没有使用场景图这种物体之间关系的清晰表示,可能较难捕捉到深层的结构信息。传统的Transformer方法在设计任务时可能会引入噪声,在解决开放域问题时可能会出现性能损失。现有的视频问答的设计方案方案中的模型缺少对时序信息分析的模块,导致模型缺乏对视频的动态推理能力,也间接导致了模型的训练和微调需要大量数据。综上,现有技术针对视频问答无法利用视频帧中物体之间以及动作之间清晰地层次结构,进而无法准确有效给出视频问答的答案。
发明内容
为解决上述现有技术中所存在的问题,本发明提供一种基于场景图推理的视频问答方法,能够利用视频帧中物体之间以及动作之间清晰地层次结构,得到更加准确地结果,根据问题的语义特征和视频的外观信息以及动作信息融合多个不同模态语义信息得到跨模态特征,并通过工具生成的无偏场景图推理给出正确的视频问答答案。
为了实现上述技术目的,本发明提供了如下技术方案:
一种基于场景图推理的视频问答方法,包括:
获取视频数据,通过无偏场景图生成算法对视频数据进行处理得到无偏场景图数据;
同时,对视频数据进行特征提取得到视频特征,并获取问题特征,通过多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;
基于共现信息,通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息;对所述答案线索信息及特征信息进行解码,得到视频问答答案信息以实现视频问答。
可选的,对视频数据进行特征提取的过程包括:
分别对视频数据进行运动特征及外观特征提取,得到视频运动特征及视频外观特征,对所述视频运动特征及视频外观特征按时序进行拼接得到视频特征。
可选的,通过场景图生成算法对视频数据进行处理的过程包括:
构建场景图生成模型,对所述场景图生成模型进行有偏训练,得到有偏场景图生成算法;
通过有偏场景图生成算法对所述视频数据进行处理,得到物体特征;对视频数据中的物体特征进行掩膜覆盖,得到掩膜数据,通过有偏场景图生成算法对掩膜数据进行识别,得到掩膜场景图,对所述视频数据及掩膜场景图进行对比,得到无偏场景图数据;
通过深度生成算法为无偏场景图数据生成伪深度,得到带深度的无偏场景图数据。
可选的,获取问题特征的过程包括:
获取问题数据,对问题数据进行初始化,通过Bert模型对初始化后的问题数据进行处理,得到问题特征。
可选的,对所述视频特征及问题特征进行处理的过程包括:
构建若干个多尺度跨注意力模型,其中若干个多尺度跨注意力模型依次连接,其中所述多尺度跨注意力模型包括金字塔自注意力层、跨模态多头注意力层及前馈层,对视频特征进行深度卷积输入到所述金字塔自注意力层进行多尺度视频特征提取,通过所述跨模态多头注意力层对视频金字塔自注意力结果及问题特征进行关联提取,生成共现信息,通过所述前馈层对问题特征及共现信息进行处理生成特征信息;
通过连接后的多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息。
可选的,对场景图数据进行推导的过程包括:
构建若干个动态图推理模型,将若干个所述动态图推理模型进行连接,所述动态图推理模型与多尺度跨注意力模型的个数及顺序一一对应;将所述无偏场景图数据输入连接后的动态图推理模型,通过所述共现信息对所述动态图推理模型中的节点进行更新,并通过核函数对所述动态图推理模型中的边进行更新,最终输出答案线索信息。
可选的,所述核函数
Figure 775479DEST_PATH_IMAGE001
为:
Figure 754936DEST_PATH_IMAGE002
其中
Figure 82143DEST_PATH_IMAGE003
为节点
Figure 274090DEST_PATH_IMAGE004
的坐标,
Figure 635932DEST_PATH_IMAGE005
为节点
Figure 520712DEST_PATH_IMAGE006
的坐标,
Figure 600794DEST_PATH_IMAGE007
为节点
Figure 127591DEST_PATH_IMAGE004
的时间戳,
Figure 343939DEST_PATH_IMAGE008
为节点
Figure 868462DEST_PATH_IMAGE006
的时间戳,
Figure 685108DEST_PATH_IMAGE009
以及
Figure 969590DEST_PATH_IMAGE010
为缩放超参数。
可选的,对所述答案线索信息及特征信息进行解码的过程包括:
构建答案解码器,对所述答案解码器进行训练;通过训练好的答案解码器对所述答案线索信息及特征信息解码,得到视频问答答案信息,其中所述训练过程使用交叉熵函数、平均方差损失函数或Hinge loss函数对答案解码器进行训练。
本发明具有如下技术效果:
本发明提供一种基于场景图的视频问答的方法:使用多尺度的跨注意力结构实现文本和视频外观以及运动信息之间的多层次交互。使用场景图提供的清晰层次结构指导模型,并设计了一种对场景图的动态推理方法在获得问题线索的前提下从视觉信息中搜索出有效的信息;进行多模态融合并生成更全面的答案特征并输入到解码器得到最终的答案。通过上述技术方案,本发明在融合跨模态特征前提下,通过无偏场景图生成工具以及基于场景图的动态推理方法来捕捉到与问题相关的视觉语义特征,在Why类型以及How类型的问题中取得更好的表现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的总体框架流程示意图;
图2为本发明实施例提供的有偏与无偏场景图区别示意图;
图3为本发明实施例提供的无偏场景图的关系边示意图;
图4为本发明实施例提供的多尺度跨注意力模型结构图示意图;
图5为本发明实施例提供的动态图推理模型结构图示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所述,本发明技术方案主要可以分为五个部分:问题文本特征以及视频特征提取、无偏场景图生成算法、多尺度跨注意力模型处理、动态图推理模型处理以及答案文本解码器识别,设计并利用多尺度的跨注意力结构将问题文本特征与视频视觉特征进行多层次的融合,为图推理提供更丰富的跨模态特征。并巧妙运用无偏场景图生成算法为视频生成一系列无偏场景图,加入更强的因果关系以生成更有效的信息特征。同时设计并使用场景图动态推理模块,从视频场景图中提取出有效信息。
针对上述内容,通过如下步骤进行具体说明:
(1)问题文本特征以及视频特征提取
1、问题文本特征提取:将视频问答所提出的问题的所有单词用预训练的Golve向 量初始化,并表示为300维的词嵌入。将其送入到Bert模型中得到问题特征
Figure 289713DEST_PATH_IMAGE011
,其 中
Figure 516295DEST_PATH_IMAGE012
为512,
Figure 39811DEST_PATH_IMAGE013
为问题的单词长度。
2、视频特征提取:本发明将每个视频裁剪为平均采样长度为
Figure 111672DEST_PATH_IMAGE014
Figure 286302DEST_PATH_IMAGE015
个片段,其中
Figure 168938DEST_PATH_IMAGE016
Figure 429018DEST_PATH_IMAGE017
。使用在Kinect数据集预训练的3D ResNeXt-101网络提取片段帧的运动特 征
Figure 304570DEST_PATH_IMAGE018
Figure 84439DEST_PATH_IMAGE019
。使用在ImageNet数据集预训练的ResNet-101网络提取片段 帧的外观特征
Figure 652823DEST_PATH_IMAGE020
Figure 134620DEST_PATH_IMAGE021
。随后将运动特征及外观特征按照时序拼接成视频 特征
Figure 548284DEST_PATH_IMAGE022
(2)生成无偏场景图:观察到现有的场景图生成网络输出的关系边表达非常的模糊。如图2所示,比如人在沙滩上行走/坐在沙滩上/躺在沙滩上等复杂关系简单归结为人在沙滩上。这种现象称为有偏生成,是由于训练数据所标注的关系边分布不平衡导致的。针对这种情况,本发明按照以下流程消除数据集分布的影响并生成无偏场景图。
1、选择构建现有的场景图生成模型进行普通的有偏训练,得到关系边的输出概率图。这样虽然可能有错但具体能过滤大量不合理的关系边。
2、我们分析图片的信息导向可以发现预测概率分布Y由物体特征X、背景信息Z以 及图片本身I共同引起的组合效应,如图3所示。为了剔除除了物体特征比如背景信息等的 因素影响,运用反思维我们先对物体特征X进行干预(抹除)得到第二幅组合效应图。具体的 做法是将数据集中的图片出现的物体特征都使用掩膜覆盖,并继续使用模型得到新的场景 图,得到另一个关系边的输出概率图。然后和原始场景进行对比(输出概率分布相减),从而 得出最后的关系边预测。这种做法的原理是通过对比可以让其他无关因素相互抵消,使得 最终产生的分布更加偏向于物体特征,输出的概率分布不再是长尾的。最后图节点特征由 ROI所标记的区域特征代替。为了减少计算复杂度,此处我们在每个片段只输出一张关键帧 的场景图,最后得到
Figure 182659DEST_PATH_IMAGE023
3、利用现有工具生成伪深度:为了丰富图节点特征,我们采用MiDAS预训练模型来 为图节点即最终生成的无偏场景图生成伪深度,为每一个出现的物体提供三维的坐标,将 位置映射到三维世界坐标
Figure 921945DEST_PATH_IMAGE024
,生成带深度的无偏场景图供后续模型使用。
(3)如图4所示,多尺度跨注意力模型:此模型的目的是为了问题语义特征与视频 的外观和动作特征进行多层次的交互。输入视频特征
Figure 156617DEST_PATH_IMAGE025
以及文本问题特征
Figure 859125DEST_PATH_IMAGE026
,输出下一步 视频特征及问题特征
Figure 862853DEST_PATH_IMAGE027
以及
Figure 773040DEST_PATH_IMAGE028
。由于输入输出格式相同,此模型可以迭代式将多模态 特征融合。将最后得到的
Figure 980162DEST_PATH_IMAGE029
以及
Figure 1207DEST_PATH_IMAGE030
拼接输入到答案解码器中,该模型中包括金字塔自注 意力层及跨模态多头注意力层。
1、金字塔自注意力层(Pyramid-MHSA):将输入的第i个视觉视频特征
Figure 593863DEST_PATH_IMAGE025
按金字塔 模式进行不同步长的池化操作:
Figure 409372DEST_PATH_IMAGE031
最后将池化结果
Figure 369369DEST_PATH_IMAGE032
各个特征输入到DWConv(深度卷积)并拼接得到:
Figure 194105DEST_PATH_IMAGE033
再根据深度卷积拼接结果P分别生成计算金字塔自注意力(Pyramid self- attention)需要的查询向量query (
Figure 906846DEST_PATH_IMAGE034
)、键向量key(
Figure 643989DEST_PATH_IMAGE035
)、值向量value(
Figure 74971DEST_PATH_IMAGE036
)得到:
Figure 437819DEST_PATH_IMAGE037
其中
Figure 21378DEST_PATH_IMAGE025
为输入的第i个视觉视频特征,
Figure 913111DEST_PATH_IMAGE038
为可学习的金字塔自注 意力参数。之后将上述向量输入到自注意力层得到注意力A:
Figure 96968DEST_PATH_IMAGE039
其中
Figure 14239DEST_PATH_IMAGE040
Figure 435993DEST_PATH_IMAGE041
的通道数,用作尺度缩放。
Figure 764206DEST_PATH_IMAGE041
上标
Figure 920512DEST_PATH_IMAGE042
代表向量的转置(transpose)。 使用这种金字塔特征降采样的形式,既可以减少自注意力的计算量,大大缩小特征序列长 度;也可以引入更丰富的多层次视频特征,有助于与文本特征
Figure 625163DEST_PATH_IMAGE043
进行多尺度的交互。最后 得到多尺度视频特征
Figure 432582DEST_PATH_IMAGE044
Figure 931697DEST_PATH_IMAGE045
2、跨模态多头注意力层(Multi-Head Cross-modal Attention):将上一步得到的 多尺度视频特征
Figure 575299DEST_PATH_IMAGE044
与文本问题特征
Figure 83640DEST_PATH_IMAGE043
通过归一化层后得到跨模态注意力所需要的查询 向量query(
Figure 496298DEST_PATH_IMAGE046
)、键向量key(
Figure 166314DEST_PATH_IMAGE047
)、值向量value(
Figure 280901DEST_PATH_IMAGE048
):
Figure 327354DEST_PATH_IMAGE049
其中
Figure 594518DEST_PATH_IMAGE050
为LayerNorm归一化层,输入到跨模态多头注意力层:
Figure 701015DEST_PATH_IMAGE051
其中
Figure 302897DEST_PATH_IMAGE052
用作尺度缩放。这样问题语义便可以和视频特征相互联系起来,提取出它们 的语义共现,并通过前馈层对共现信息I及文体特征进行处理生成特征信息即下一步视频 特征及问题特征
Figure 638195DEST_PATH_IMAGE053
以及
Figure 274713DEST_PATH_IMAGE054
(4)动态图推理模型:此模型以跨模态多头注意力层的输出共现信息
Figure 552110DEST_PATH_IMAGE055
作指导,通 过节点更新操作以及边更新操作,在场景图结构
Figure 126442DEST_PATH_IMAGE056
(其中H为节点集、E为边集) 中推导出答案线索。其流程如图5所示,最后将节点特征池化并拼接输入到答案解码器中。
1、节点更新:为了能利用视频特征和文本特征的共现信息,我们将跨模态多头注 意力层的输出
Figure 780277DEST_PATH_IMAGE055
分别与各个节点拼接,并使用图注意力网络(Graph Attention Network)。 在第
Figure 5722DEST_PATH_IMAGE057
层,关于节点
Figure 204754DEST_PATH_IMAGE004
和节点
Figure 781228DEST_PATH_IMAGE058
的注意力
Figure 973175DEST_PATH_IMAGE059
表示为:
Figure 53127DEST_PATH_IMAGE060
其中
Figure 977655DEST_PATH_IMAGE061
层为全连接层。当计算完所有的注意力分数后,其第n层的第i个节点
Figure 775847DEST_PATH_IMAGE062
更新为:
Figure 522217DEST_PATH_IMAGE063
2、边更新:为了在更新边的信息时能考虑到时序信息以及节点之间的位置信息, 本发明设计一种新的核函数
Figure 456675DEST_PATH_IMAGE064
来更新边,其定义如下:
Figure 246777DEST_PATH_IMAGE065
其中
Figure 797844DEST_PATH_IMAGE066
为节点
Figure 816746DEST_PATH_IMAGE004
的坐标,
Figure 871290DEST_PATH_IMAGE005
为节点
Figure 97872DEST_PATH_IMAGE006
的坐标,
Figure 621388DEST_PATH_IMAGE067
为节点
Figure 693250DEST_PATH_IMAGE004
的时间戳,
Figure 133458DEST_PATH_IMAGE008
为节点
Figure 750516DEST_PATH_IMAGE006
的时间戳,
Figure 10596DEST_PATH_IMAGE068
以及
Figure 886148DEST_PATH_IMAGE069
为缩放超参数。使用该核函数可以根据时序相似度以及位置相似 度来评估边的变化情况,最终边更新公式如下:
Figure 915284DEST_PATH_IMAGE070
(5)使用答案解码器解码答案。将多尺度跨注意力模块所输出的
Figure 968821DEST_PATH_IMAGE071
以及
Figure 716198DEST_PATH_IMAGE072
,动态 图推理模块的节点特征和边特征拼接在一起并通过全连接层得到输出特征
Figure 395441DEST_PATH_IMAGE073
,之后针对不 同类型的问题设计相应地损失函数训练并得到答案。
1、对于开放式问答,我们需要将输出特征
Figure 29815DEST_PATH_IMAGE073
映射到开放问题答案空间
Figure 769101DEST_PATH_IMAGE074
中:
Figure 738194DEST_PATH_IMAGE075
其中
Figure 706281DEST_PATH_IMAGE076
代表可学习参数,
Figure 710010DEST_PATH_IMAGE077
为问题答案向量,
Figure 89038DEST_PATH_IMAGE078
为问题答案概 率分布,
Figure 561739DEST_PATH_IMAGE079
表示激活函数问题全局特征,使用交叉熵损失函数训练。
2、对于计数问题,将
Figure 317205DEST_PATH_IMAGE080
函数替换为舍入函数,并使用平均方差损失函数 训练。
3、对于多选问答,将每个候选答案与相应的问题按各种组合拼接起来得到对应的 拼接文本并输入到模型中,将
Figure 441019DEST_PATH_IMAGE080
函数替换为:
Figure 256528DEST_PATH_IMAGE081
其概率最高的第k个选择组合将作为输出,使用Hinge loss函数训练。
使用多尺度的跨注意力结构将问题与视频进行多层次交互;通过无偏场景图生成工具来对视频关键帧分析并生成场景图,并利用交互信息使用动态图推理模块来推理找出线索;使用多特征融合并利用答案解码器得到最终答案。
本发明提供一个基于场景图推理的视频问答方法致力于得到准确的答案。在融合跨模态特征前提下,通过无偏场景图生成工具以及基于场景图的动态推理方法来捕捉到与问题相关的视觉语义特征,在Why类型以及How类型的问题中取得更好的表现。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于场景图推理的视频问答方法,其特征在于,包括:
获取视频数据,通过无偏场景图生成算法对视频数据进行处理得到无偏场景图数据;
对视频数据进行特征提取得到视频特征并获取问题特征,通过多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;
基于共现信息,通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息;对所述答案线索信息及特征信息进行解码,得到视频问答答案信息以实现视频问答;
对所述视频特征及问题特征进行处理的过程包括:
构建若干个多尺度跨注意力模型,其中若干个多尺度跨注意力模型依次连接,其中所述多尺度跨注意力模型包括金字塔自注意力层、跨模态多头注意力层及前馈层,将所述视频特征进行深度卷积输入到所述金字塔自注意力层进行多尺度视频特征提取,通过所述跨模态多头注意力层对金字塔自注意力结果及问题特征进行关联提取,生成共现信息,通过所述前馈层对问题特征及共现信息进行处理生成特征信息;
通过连接后的多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;
对场景图数据进行推导的过程包括:
构建若干个动态图推理模型,将若干个所述动态图推理模型进行连接,所述动态图推理模型与多尺度跨注意力模型的个数及顺序一一对应;将所述无偏场景图数据输入连接后的动态图推理模型,通过所述共现信息对所述动态图推理模型中的节点进行更新,并通过核函数对所述动态图推理模型中的边进行更新,最终输出答案线索信息;
多尺度跨注意力模型:输入视频特征
Figure QLYQS_1
以及文本问题特征/>
Figure QLYQS_2
,输出下一步视频特征及问题特征/>
Figure QLYQS_3
以及问题特征/>
Figure QLYQS_4
,此模型可以迭代式将多模态特征融合;将最后得到的视频特征及问题特征/>
Figure QLYQS_5
以及问题特征/>
Figure QLYQS_6
拼接输入到答案解码器中,该模型中包括金字塔自注意力层及跨模态多头注意力层;
金字塔自注意力层:将输入的视频特征
Figure QLYQS_7
按金字塔模式进行不同步长的池化操作:
Figure QLYQS_8
最后将池化结果/>
Figure QLYQS_9
各个特征输入到DWConv,DWConv为深度卷积并拼接得到:
Figure QLYQS_10
再根据深度卷积拼接结果P分别生成计算金字塔自注意力需要的查询向量/>
Figure QLYQS_11
、键向量/>
Figure QLYQS_12
、值向量/>
Figure QLYQS_13
得到:/>
Figure QLYQS_14
其中,/>
Figure QLYQS_15
为可学习的金字塔自注意力参数;之后将上述向量输入到自注意力层得到注意力A:
Figure QLYQS_16
其中/>
Figure QLYQS_17
为/>
Figure QLYQS_18
的通道数,用作尺度缩放;/>
Figure QLYQS_19
上标
Figure QLYQS_20
代表向量的转置;使用这种金字塔特征降采样的形式,既减少自注意力的计算量,缩小特征序列长度;也引入更丰富的多层次视频特征,有助于与文本特征/>
Figure QLYQS_21
进行多尺度的交互;最后得到多尺度视频特征/>
Figure QLYQS_22
Figure QLYQS_23
跨模态多头注意力层:将上一步得到的多尺度视频特征/>
Figure QLYQS_24
与文本问题特征/>
Figure QLYQS_25
通过归一化层后得到跨模态注意力所需要的查询向量/>
Figure QLYQS_26
、键向量/>
Figure QLYQS_27
、值向量
Figure QLYQS_28
:
Figure QLYQS_29
其中/>
Figure QLYQS_30
为LayerNorm归一化层,输入到跨模态多头注意力层:
Figure QLYQS_31
其中/>
Figure QLYQS_32
用作尺度缩放;这样问题语义和视频特征相互联系起来,提取出它们的语义共现,并通过前馈层对共现信息I及文体特征进行处理生成特征信息即下一步视频特征及问题特征/>
Figure QLYQS_33
以及问题特征/>
Figure QLYQS_34
动态图推理模型:此模型以跨模态多头注意力层的输出共现信息
Figure QLYQS_35
作指导,通过节点更新操作以及边更新操作,在场景图结构/>
Figure QLYQS_36
,其中H为节点集、E为边集;最后将节点特征池化及边特征拼接并通过全连接层得到输出特征,将输出特征输入到答案解码器中;
节点更新:为了能利用视频特征和文本特征的共现信息,我们将跨模态多头注意力层的输出共现信息
Figure QLYQS_37
分别与各个节点拼接,并使用图注意力网络;在第/>
Figure QLYQS_38
层,关于节点/>
Figure QLYQS_39
和节点
Figure QLYQS_40
的注意力/>
Figure QLYQS_41
表示为:
Figure QLYQS_42
其中
Figure QLYQS_43
层为全连接层;当计算完所有的注意力分数后,其第n层的第i个节点特征/>
Figure QLYQS_44
更新为:
Figure QLYQS_45
;边更新:为了在更新边的信息时能考虑到时序信息以及节点之间的位置信息,设计一种核函数/>
Figure QLYQS_46
来更新边,使用该核函数根据时序相似度以及位置相似度来评估边的变化情况,最终边更新公式如下:/>
Figure QLYQS_47
2.根据权利要求1所述的方法,其特征在于:
对视频数据进行特征提取的过程包括:
分别对视频数据进行运动特征及外观特征提取,得到视频运动特征及视频外观特征,对所述视频运动特征及视频外观特征按时序进行拼接得到视频特征。
3.根据权利要求1所述的方法,其特征在于:
通过场景图生成算法对视频数据进行处理的过程包括:
构建场景图生成模型,对所述场景图生成模型进行有偏训练,得到有偏场景图生成算法;
通过有偏场景图生成算法对所述视频数据进行处理,得到物体特征;对视频数据中的物体特征进行掩膜覆盖,得到掩膜数据,通过有偏场景图生成算法对掩膜数据进行识别,得到掩膜场景图,对所述视频数据及掩膜场景图进行对比,得到无偏场景图数据;
通过深度生成算法为无偏场景图数据生成伪深度,得到带深度的无偏场景图数据。
4.根据权利要求1所述的方法,其特征在于:
获取问题特征的过程包括:
获取问题数据,对问题数据进行初始化,通过Bert模型对初始化后的问题数据进行处理,得到问题特征。
5.根据权利要求1所述的方法,其特征在于:
所述核函数
Figure QLYQS_48
为:
Figure QLYQS_51
其中/>
Figure QLYQS_54
为节点/>
Figure QLYQS_57
的坐标,/>
Figure QLYQS_50
为节点/>
Figure QLYQS_53
的坐标,/>
Figure QLYQS_56
为节点/>
Figure QLYQS_58
的时间戳,/>
Figure QLYQS_49
为节点/>
Figure QLYQS_52
的时间戳,/>
Figure QLYQS_55
以及/>
Figure QLYQS_59
为缩放超参数。
6.根据权利要求1所述的方法,其特征在于:
对所述答案线索信息及特征信息进行解码的过程包括:
构建答案解码器,对所述答案解码器进行训练;通过训练好的答案解码器对所述答案线索信息及特征信息解码,得到视频问答答案信息,其中训练过程使用交叉熵函数、平均方差损失函数或Hinge loss函数对答案解码器进行训练。
CN202211587240.7A 2022-12-12 2022-12-12 一种基于场景图推理的视频问答方法 Active CN115599954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211587240.7A CN115599954B (zh) 2022-12-12 2022-12-12 一种基于场景图推理的视频问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211587240.7A CN115599954B (zh) 2022-12-12 2022-12-12 一种基于场景图推理的视频问答方法

Publications (2)

Publication Number Publication Date
CN115599954A CN115599954A (zh) 2023-01-13
CN115599954B true CN115599954B (zh) 2023-03-31

Family

ID=84852707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211587240.7A Active CN115599954B (zh) 2022-12-12 2022-12-12 一种基于场景图推理的视频问答方法

Country Status (1)

Country Link
CN (1) CN115599954B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069973B (zh) * 2023-04-04 2023-06-06 石家庄铁道大学 一种基于语义自挖掘的视频摘要生成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898448B (zh) * 2020-06-30 2023-10-24 北京大学 一种基于深度学习的行人属性识别方法和系统
CN111652357B (zh) * 2020-08-10 2021-01-15 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN115391548A (zh) * 2022-07-08 2022-11-25 浙江工业大学 基于场景图和概念网相结合的检索知识图谱库生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法

Also Published As

Publication number Publication date
CN115599954A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
Zhang et al. Information fusion in visual question answering: A survey
CN109947912A (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN112036276A (zh) 一种人工智能视频问答方法
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN114428866A (zh) 一种基于面向对象的双流注意力网络的视频问答方法
CN115599954B (zh) 一种基于场景图推理的视频问答方法
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN116306681A (zh) 基于事实场景的可解释性视觉问答模型构建方法与系统
CN116151226B (zh) 一种基于机器学习的聋哑人手语纠错方法、设备和介质
CN113609355B (zh) 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN114511813B (zh) 视频语义描述方法及装置
CN116680407A (zh) 一种知识图谱的构建方法及装置
Wu et al. Question-driven multiple attention (dqma) model for visual question answer
CN113010712B (zh) 一种基于多图融合的视觉问答方法
CN112765955B (zh) 一种中文指代表达下的跨模态实例分割方法
CN114818739A (zh) 一种利用位置信息优化的视觉问答方法
Xu et al. STRNet: Triple-stream spatiotemporal relation network for action recognition
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN117392180B (zh) 基于自监督光流学习的交互式视频人物跟踪方法及系统
Zhu et al. Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework for Visual Commonsense Reasoning
CN114840697B (zh) 一种云服务机器人的视觉问答方法及系统
Li et al. A Novel Parameter Dense Three-dimensional Convolution Residual Network Method and its Application in Classroom Teaching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240807

Address after: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui.

Patentee after: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: 510006 No. 100 West Ring Road, Guangzhou University, Guangzhou, Guangdong, Panyu District

Patentee before: GUANGDONG University OF TECHNOLOGY

Country or region before: China