CN115599954B - 一种基于场景图推理的视频问答方法 - Google Patents
一种基于场景图推理的视频问答方法 Download PDFInfo
- Publication number
- CN115599954B CN115599954B CN202211587240.7A CN202211587240A CN115599954B CN 115599954 B CN115599954 B CN 115599954B CN 202211587240 A CN202211587240 A CN 202211587240A CN 115599954 B CN115599954 B CN 115599954B
- Authority
- CN
- China
- Prior art keywords
- video
- features
- attention
- information
- scene graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims 1
- 230000000007 visual effect Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000002301 combined effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006993 memory improvement Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于场景图推理的视频问答方法,包括,获取视频数据,并通过场景图生成算法对视频数据进行处理得到无偏场景图数据;对视频数据进行特征提取得到视频特征并获取问题特征,通过多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;基于共现信息,通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息;对所述答案线索信息及特征信息进行解码,得到视频问答答案信息以实现视频问答。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于场景图推理的视频问答方法。
背景技术
在人类的水平上理解视频内容是一种高级的视觉智能。为了实现这一目标,研究人员已经研究了诸如物体检测、语义分割和视频摘要等中间任务。最近,人们对许多连接语言和视觉的任务越来越感兴趣,这些任务旨在表现更接近人类理解水平的能力。许多研究人员致力于视觉问题回答 (Visual Question Answer,简称VQA),它具有两个重要特性:(1)需要理解视觉观察的特定部分才能回答问题;(2)每个问题的相关答案空间要更少。由于这些特性,视觉问答已成为在更精细的细节水平上替代人类视觉理解的可行替代方案。在人机交互以及智能问答等科技产品上都有所应用。
视频问答(Video QA)在视频检索、智能问答系统和自动驾驶等方面的广泛应用受到越来越广泛的关注。与图像问答相比,视频问答更具挑战性,因为视频问答需要处理具有丰富外观和运动信息的长序列图像,而不是单一的静态图像。并且视频中存在大量的时间线索,视频问答需要更多的时间推理来回答相关问题,例如动作过渡和计数任务。大多数现有方法使用递归神经网络(RNN)及其变体进行编码。最近研究人员使用时空注意机制,也有文献使用视频的卷积神经网络(CNN)提取文本的语义嵌入和空间特征用于学习外观运动表示或记忆增强,旨在捕获依赖于更大时间尺度的文本和视频之间的语义关系。虽然这些方法在基准数据集上取得了有竞争力的结果,但在很大程度上忽略了视频文本和外观运动信息之间的多层次交互。此外,在使用共同注意表征和记忆增强共同表征时,可能会进一步影响各自视觉信息的学习。近期人们发现基于从视觉信息中挖掘出结构化信息(例如场景图等),再根据问题中隐含的线索能更准确地推理出答案。由于目前关于此类挖掘结构化信息的视觉问答解决思路和方法较少,本专利提出的基于场景图的推理方法很有潜力。
最近相似的实现方案是基于Transformer的视频问答表示网络。该方法使用多头注意力层(Multi-Head Self Attention)或多头跨注意力层(Multi-Head Co-Attention)融合多模态的信息来学习通用的表示,并设计一些特定的监督任务以有助于视频问答Transformer模型的学习,最后将得到的特征输入到解码器中得到答案。上述现有技术中存在如下的问题,针对视频问答,部分模型没有使用场景图这种物体之间关系的清晰表示,可能较难捕捉到深层的结构信息。传统的Transformer方法在设计任务时可能会引入噪声,在解决开放域问题时可能会出现性能损失。现有的视频问答的设计方案方案中的模型缺少对时序信息分析的模块,导致模型缺乏对视频的动态推理能力,也间接导致了模型的训练和微调需要大量数据。综上,现有技术针对视频问答无法利用视频帧中物体之间以及动作之间清晰地层次结构,进而无法准确有效给出视频问答的答案。
发明内容
为解决上述现有技术中所存在的问题,本发明提供一种基于场景图推理的视频问答方法,能够利用视频帧中物体之间以及动作之间清晰地层次结构,得到更加准确地结果,根据问题的语义特征和视频的外观信息以及动作信息融合多个不同模态语义信息得到跨模态特征,并通过工具生成的无偏场景图推理给出正确的视频问答答案。
为了实现上述技术目的,本发明提供了如下技术方案:
一种基于场景图推理的视频问答方法,包括:
获取视频数据,通过无偏场景图生成算法对视频数据进行处理得到无偏场景图数据;
同时,对视频数据进行特征提取得到视频特征,并获取问题特征,通过多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;
基于共现信息,通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息;对所述答案线索信息及特征信息进行解码,得到视频问答答案信息以实现视频问答。
可选的,对视频数据进行特征提取的过程包括:
分别对视频数据进行运动特征及外观特征提取,得到视频运动特征及视频外观特征,对所述视频运动特征及视频外观特征按时序进行拼接得到视频特征。
可选的,通过场景图生成算法对视频数据进行处理的过程包括:
构建场景图生成模型,对所述场景图生成模型进行有偏训练,得到有偏场景图生成算法;
通过有偏场景图生成算法对所述视频数据进行处理,得到物体特征;对视频数据中的物体特征进行掩膜覆盖,得到掩膜数据,通过有偏场景图生成算法对掩膜数据进行识别,得到掩膜场景图,对所述视频数据及掩膜场景图进行对比,得到无偏场景图数据;
通过深度生成算法为无偏场景图数据生成伪深度,得到带深度的无偏场景图数据。
可选的,获取问题特征的过程包括:
获取问题数据,对问题数据进行初始化,通过Bert模型对初始化后的问题数据进行处理,得到问题特征。
可选的,对所述视频特征及问题特征进行处理的过程包括:
构建若干个多尺度跨注意力模型,其中若干个多尺度跨注意力模型依次连接,其中所述多尺度跨注意力模型包括金字塔自注意力层、跨模态多头注意力层及前馈层,对视频特征进行深度卷积输入到所述金字塔自注意力层进行多尺度视频特征提取,通过所述跨模态多头注意力层对视频金字塔自注意力结果及问题特征进行关联提取,生成共现信息,通过所述前馈层对问题特征及共现信息进行处理生成特征信息;
通过连接后的多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息。
可选的,对场景图数据进行推导的过程包括:
构建若干个动态图推理模型,将若干个所述动态图推理模型进行连接,所述动态图推理模型与多尺度跨注意力模型的个数及顺序一一对应;将所述无偏场景图数据输入连接后的动态图推理模型,通过所述共现信息对所述动态图推理模型中的节点进行更新,并通过核函数对所述动态图推理模型中的边进行更新,最终输出答案线索信息。
可选的,对所述答案线索信息及特征信息进行解码的过程包括:
构建答案解码器,对所述答案解码器进行训练;通过训练好的答案解码器对所述答案线索信息及特征信息解码,得到视频问答答案信息,其中所述训练过程使用交叉熵函数、平均方差损失函数或Hinge loss函数对答案解码器进行训练。
本发明具有如下技术效果:
本发明提供一种基于场景图的视频问答的方法:使用多尺度的跨注意力结构实现文本和视频外观以及运动信息之间的多层次交互。使用场景图提供的清晰层次结构指导模型,并设计了一种对场景图的动态推理方法在获得问题线索的前提下从视觉信息中搜索出有效的信息;进行多模态融合并生成更全面的答案特征并输入到解码器得到最终的答案。通过上述技术方案,本发明在融合跨模态特征前提下,通过无偏场景图生成工具以及基于场景图的动态推理方法来捕捉到与问题相关的视觉语义特征,在Why类型以及How类型的问题中取得更好的表现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的总体框架流程示意图;
图2为本发明实施例提供的有偏与无偏场景图区别示意图;
图3为本发明实施例提供的无偏场景图的关系边示意图;
图4为本发明实施例提供的多尺度跨注意力模型结构图示意图;
图5为本发明实施例提供的动态图推理模型结构图示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所述,本发明技术方案主要可以分为五个部分:问题文本特征以及视频特征提取、无偏场景图生成算法、多尺度跨注意力模型处理、动态图推理模型处理以及答案文本解码器识别,设计并利用多尺度的跨注意力结构将问题文本特征与视频视觉特征进行多层次的融合,为图推理提供更丰富的跨模态特征。并巧妙运用无偏场景图生成算法为视频生成一系列无偏场景图,加入更强的因果关系以生成更有效的信息特征。同时设计并使用场景图动态推理模块,从视频场景图中提取出有效信息。
针对上述内容,通过如下步骤进行具体说明:
(1)问题文本特征以及视频特征提取
2、视频特征提取:本发明将每个视频裁剪为平均采样长度为的个片段,其中,。使用在Kinect数据集预训练的3D ResNeXt-101网络提取片段帧的运动特
征,。使用在ImageNet数据集预训练的ResNet-101网络提取片段
帧的外观特征,。随后将运动特征及外观特征按照时序拼接成视频
特征。
(2)生成无偏场景图:观察到现有的场景图生成网络输出的关系边表达非常的模糊。如图2所示,比如人在沙滩上行走/坐在沙滩上/躺在沙滩上等复杂关系简单归结为人在沙滩上。这种现象称为有偏生成,是由于训练数据所标注的关系边分布不平衡导致的。针对这种情况,本发明按照以下流程消除数据集分布的影响并生成无偏场景图。
1、选择构建现有的场景图生成模型进行普通的有偏训练,得到关系边的输出概率图。这样虽然可能有错但具体能过滤大量不合理的关系边。
2、我们分析图片的信息导向可以发现预测概率分布Y由物体特征X、背景信息Z以
及图片本身I共同引起的组合效应,如图3所示。为了剔除除了物体特征比如背景信息等的
因素影响,运用反思维我们先对物体特征X进行干预(抹除)得到第二幅组合效应图。具体的
做法是将数据集中的图片出现的物体特征都使用掩膜覆盖,并继续使用模型得到新的场景
图,得到另一个关系边的输出概率图。然后和原始场景进行对比(输出概率分布相减),从而
得出最后的关系边预测。这种做法的原理是通过对比可以让其他无关因素相互抵消,使得
最终产生的分布更加偏向于物体特征,输出的概率分布不再是长尾的。最后图节点特征由
ROI所标记的区域特征代替。为了减少计算复杂度,此处我们在每个片段只输出一张关键帧
的场景图,最后得到。
3、利用现有工具生成伪深度:为了丰富图节点特征,我们采用MiDAS预训练模型来
为图节点即最终生成的无偏场景图生成伪深度,为每一个出现的物体提供三维的坐标,将
位置映射到三维世界坐标,生成带深度的无偏场景图供后续模型使用。
(3)如图4所示,多尺度跨注意力模型:此模型的目的是为了问题语义特征与视频
的外观和动作特征进行多层次的交互。输入视频特征以及文本问题特征,输出下一步
视频特征及问题特征以及。由于输入输出格式相同,此模型可以迭代式将多模态
特征融合。将最后得到的以及拼接输入到答案解码器中,该模型中包括金字塔自注
意力层及跨模态多头注意力层。
其中为的通道数,用作尺度缩放。上标代表向量的转置(transpose)。
使用这种金字塔特征降采样的形式,既可以减少自注意力的计算量,大大缩小特征序列长
度;也可以引入更丰富的多层次视频特征,有助于与文本特征进行多尺度的交互。最后
得到多尺度视频特征:
2、跨模态多头注意力层(Multi-Head Cross-modal Attention):将上一步得到的
多尺度视频特征与文本问题特征通过归一化层后得到跨模态注意力所需要的查询
向量query()、键向量key()、值向量value():
(4)动态图推理模型:此模型以跨模态多头注意力层的输出共现信息作指导,通
过节点更新操作以及边更新操作,在场景图结构(其中H为节点集、E为边集)
中推导出答案线索。其流程如图5所示,最后将节点特征池化并拼接输入到答案解码器中。
1、节点更新:为了能利用视频特征和文本特征的共现信息,我们将跨模态多头注
意力层的输出分别与各个节点拼接,并使用图注意力网络(Graph Attention Network)。
在第层,关于节点和节点的注意力表示为:
其概率最高的第k个选择组合将作为输出,使用Hinge loss函数训练。
使用多尺度的跨注意力结构将问题与视频进行多层次交互;通过无偏场景图生成工具来对视频关键帧分析并生成场景图,并利用交互信息使用动态图推理模块来推理找出线索;使用多特征融合并利用答案解码器得到最终答案。
本发明提供一个基于场景图推理的视频问答方法致力于得到准确的答案。在融合跨模态特征前提下,通过无偏场景图生成工具以及基于场景图的动态推理方法来捕捉到与问题相关的视觉语义特征,在Why类型以及How类型的问题中取得更好的表现。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种基于场景图推理的视频问答方法,其特征在于,包括:
获取视频数据,通过无偏场景图生成算法对视频数据进行处理得到无偏场景图数据;
对视频数据进行特征提取得到视频特征并获取问题特征,通过多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;
基于共现信息,通过动态图推理模型对无偏场景图数据进行推导得到答案线索信息;对所述答案线索信息及特征信息进行解码,得到视频问答答案信息以实现视频问答;
对所述视频特征及问题特征进行处理的过程包括:
构建若干个多尺度跨注意力模型,其中若干个多尺度跨注意力模型依次连接,其中所述多尺度跨注意力模型包括金字塔自注意力层、跨模态多头注意力层及前馈层,将所述视频特征进行深度卷积输入到所述金字塔自注意力层进行多尺度视频特征提取,通过所述跨模态多头注意力层对金字塔自注意力结果及问题特征进行关联提取,生成共现信息,通过所述前馈层对问题特征及共现信息进行处理生成特征信息;
通过连接后的多尺度跨注意力模型对所述视频特征及问题特征进行处理,得到共现信息及特征信息;
对场景图数据进行推导的过程包括:
构建若干个动态图推理模型,将若干个所述动态图推理模型进行连接,所述动态图推理模型与多尺度跨注意力模型的个数及顺序一一对应;将所述无偏场景图数据输入连接后的动态图推理模型,通过所述共现信息对所述动态图推理模型中的节点进行更新,并通过核函数对所述动态图推理模型中的边进行更新,最终输出答案线索信息;
多尺度跨注意力模型:输入视频特征以及文本问题特征/>,输出下一步视频特征及问题特征/>以及问题特征/>,此模型可以迭代式将多模态特征融合;将最后得到的视频特征及问题特征/>以及问题特征/>拼接输入到答案解码器中,该模型中包括金字塔自注意力层及跨模态多头注意力层;
其中/>为/>的通道数,用作尺度缩放;/>上标代表向量的转置;使用这种金字塔特征降采样的形式,既减少自注意力的计算量,缩小特征序列长度;也引入更丰富的多层次视频特征,有助于与文本特征/>进行多尺度的交互;最后得到多尺度视频特征/>:
动态图推理模型:此模型以跨模态多头注意力层的输出共现信息作指导,通过节点更新操作以及边更新操作,在场景图结构/>,其中H为节点集、E为边集;最后将节点特征池化及边特征拼接并通过全连接层得到输出特征,将输出特征输入到答案解码器中;
2.根据权利要求1所述的方法,其特征在于:
对视频数据进行特征提取的过程包括:
分别对视频数据进行运动特征及外观特征提取,得到视频运动特征及视频外观特征,对所述视频运动特征及视频外观特征按时序进行拼接得到视频特征。
3.根据权利要求1所述的方法,其特征在于:
通过场景图生成算法对视频数据进行处理的过程包括:
构建场景图生成模型,对所述场景图生成模型进行有偏训练,得到有偏场景图生成算法;
通过有偏场景图生成算法对所述视频数据进行处理,得到物体特征;对视频数据中的物体特征进行掩膜覆盖,得到掩膜数据,通过有偏场景图生成算法对掩膜数据进行识别,得到掩膜场景图,对所述视频数据及掩膜场景图进行对比,得到无偏场景图数据;
通过深度生成算法为无偏场景图数据生成伪深度,得到带深度的无偏场景图数据。
4.根据权利要求1所述的方法,其特征在于:
获取问题特征的过程包括:
获取问题数据,对问题数据进行初始化,通过Bert模型对初始化后的问题数据进行处理,得到问题特征。
6.根据权利要求1所述的方法,其特征在于:
对所述答案线索信息及特征信息进行解码的过程包括:
构建答案解码器,对所述答案解码器进行训练;通过训练好的答案解码器对所述答案线索信息及特征信息解码,得到视频问答答案信息,其中训练过程使用交叉熵函数、平均方差损失函数或Hinge loss函数对答案解码器进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211587240.7A CN115599954B (zh) | 2022-12-12 | 2022-12-12 | 一种基于场景图推理的视频问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211587240.7A CN115599954B (zh) | 2022-12-12 | 2022-12-12 | 一种基于场景图推理的视频问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115599954A CN115599954A (zh) | 2023-01-13 |
CN115599954B true CN115599954B (zh) | 2023-03-31 |
Family
ID=84852707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211587240.7A Active CN115599954B (zh) | 2022-12-12 | 2022-12-12 | 一种基于场景图推理的视频问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599954B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069973B (zh) * | 2023-04-04 | 2023-06-06 | 石家庄铁道大学 | 一种基于语义自挖掘的视频摘要生成方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898448B (zh) * | 2020-06-30 | 2023-10-24 | 北京大学 | 一种基于深度学习的行人属性识别方法和系统 |
CN111652357B (zh) * | 2020-08-10 | 2021-01-15 | 浙江大学 | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 |
CN115391548A (zh) * | 2022-07-08 | 2022-11-25 | 浙江工业大学 | 基于场景图和概念网相结合的检索知识图谱库生成方法 |
-
2022
- 2022-12-12 CN CN202211587240.7A patent/CN115599954B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115599954A (zh) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Information fusion in visual question answering: A survey | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN113204675B (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN113886626B (zh) | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 | |
CN114428866A (zh) | 一种基于面向对象的双流注意力网络的视频问答方法 | |
CN115599954B (zh) | 一种基于场景图推理的视频问答方法 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
CN112527993A (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN116306681A (zh) | 基于事实场景的可解释性视觉问答模型构建方法与系统 | |
CN116151226B (zh) | 一种基于机器学习的聋哑人手语纠错方法、设备和介质 | |
CN113609355B (zh) | 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 | |
CN114511813B (zh) | 视频语义描述方法及装置 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
Wu et al. | Question-driven multiple attention (dqma) model for visual question answer | |
CN113010712B (zh) | 一种基于多图融合的视觉问答方法 | |
CN112765955B (zh) | 一种中文指代表达下的跨模态实例分割方法 | |
CN114818739A (zh) | 一种利用位置信息优化的视觉问答方法 | |
Xu et al. | STRNet: Triple-stream spatiotemporal relation network for action recognition | |
CN113569867A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN117392180B (zh) | 基于自监督光流学习的交互式视频人物跟踪方法及系统 | |
Zhu et al. | Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework for Visual Commonsense Reasoning | |
CN114840697B (zh) | 一种云服务机器人的视觉问答方法及系统 | |
Li et al. | A Novel Parameter Dense Three-dimensional Convolution Residual Network Method and its Application in Classroom Teaching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240807 Address after: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui. Patentee after: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd. Country or region after: China Address before: 510006 No. 100 West Ring Road, Guangzhou University, Guangzhou, Guangdong, Panyu District Patentee before: GUANGDONG University OF TECHNOLOGY Country or region before: China |