CN113536952B - 一种基于动作捕捉的注意力网络的视频问答方法 - Google Patents

一种基于动作捕捉的注意力网络的视频问答方法 Download PDF

Info

Publication number
CN113536952B
CN113536952B CN202110692149.0A CN202110692149A CN113536952B CN 113536952 B CN113536952 B CN 113536952B CN 202110692149 A CN202110692149 A CN 202110692149A CN 113536952 B CN113536952 B CN 113536952B
Authority
CN
China
Prior art keywords
video
processed
question
extracting
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110692149.0A
Other languages
English (en)
Other versions
CN113536952A (zh
Inventor
杨阳
杨双吉
彭亮
王国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110692149.0A priority Critical patent/CN113536952B/zh
Publication of CN113536952A publication Critical patent/CN113536952A/zh
Application granted granted Critical
Publication of CN113536952B publication Critical patent/CN113536952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于动作捕捉的注意力网络的视频问答方法,先提取将待处理视频和待处理的提问的特征,然后基于这些特征,通过物体动作注意力机制提取动作信息,通过物体关系注意力机制提取待处理视频的全局物体关系信息,通过全局动作注意力机制提取待处理视频的全局动作信息;接着对三种注意力机制下提取的信息进行融合,提取整个视频的全局特征向量;最后基于全局特征向量根据提问的格式输出不同类型答案。

Description

一种基于动作捕捉的注意力网络的视频问答方法
技术领域
本发明属于视频问答技术领域,更为具体地讲,涉及一种基于动作捕捉的注意力网络的视频问答方法。
背景技术
视频问答(Video Question Answering,Video QA)的主要目标是:输入任意的一个视频和一个对于该视频内容的提问,模型能通过对多模态输入的理解和推理,自动找出问题的答案。解决这个任务的典型方法是先用一个循环神经网络(RNN)处理问题文本,得到问题的特征向量;同时用一个卷积神经网络(CNN)逐帧处理输入视频,得到视频的特征向量;最后将两个模态的特征进行融合,并通过输出模块得到最终预测的答案。
现有的一些方法使用视觉或文本注意机制,帮助模型能更精准地关注到视频中的关键帧或问题中的关键单词。其次,为了给模型提供一些额外的知识,另一些方法利用了视频物体中的外部数据(如百科信息),它提供了关于该物体的一些常识信息,从而帮助提升回答问题的准确率。还有一些方法对视频帧中的物体关系进行建模,捕捉物体间关系在时间上的演变情况,从而使模型对输入能有更全面、更深层次的理解。
然而在视频帧的层面(粗粒度),现有方法通常对帧的整体变化进行建模,由于视频帧中可能包含多个物体而往往只有少量物体与提问有关,所以这是一种粗粒度的方法,它的识别精确度有限;其次,在视频帧中的物体层面(细粒度),现有的方法通常对同一帧的物体间的关系进行建模,并捕捉这种交互关系的动态变化情况。但是它们忽略了物体自身的动作变化情况,这对于回答问题同样十分关键。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于动作捕捉的注意力网络的视频问答方法,通过设计一个基于动作捕捉的注意力网络(MAAN),能够同时在细粒度和粗粒度层面捕捉视频中所有物体自身的动作改变情况,并结合提问得到预测的答案。
为实现上述发明目的,本发明一种基于动作捕捉的注意力网络的视频问答方法,其特征在于,包括以下步骤:
(1)、特征提取
(1.1)、将待处理视频输入至Faster RCNN网络中,提取出每一视频帧中物体的特征,其中,第j帧中第k个物体的特征记为vj,k,j=1,2…,N,k=1,2,…,K,N表示视频的总帧数,K表示每帧画面提取的物体个数;
(1.2)、将待处理视频分割成多个视频片段,然后将每一个视频片段输入至ResNeXt网络,提取出每一个视频片段的特征,记为vi,i=1,2,…,C,C为待处理视频被分割成视频片段的数量;
(1.3)、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理,提取出提问的特征,记为q;
(2)、基于物体动作注意力机制提取动作信息u;
(2.1)、通过双向Bi_LSTM网络提取物体的动作信息uj,k
uj,k=Bi_LSTM(vj,k)
(2.2)、使用物体动作注意力机制对不同时刻的特征进行加权,得到当前物体k在整个视频内的全局动作信息uk
Figure BDA0003126547330000021
βj,k=softmax(W1uj,k+W2q)
其中,W1、W2为权重参数;βj,k表示第j帧中第k个物体的重要程度指标;
(2.3)、使用物体动作注意力机制提取整个视频与提问有关的动作信息u;
Figure BDA0003126547330000022
αk=softmax(W3uk+W4q)
其中,W3、W4为权重参数;αk表示第k个物体与提问的关联程度指标;
(3)、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ;
(3.1)、使用物体关系注意力机制计算当前视频帧j中的物体关系信息μj
Figure BDA0003126547330000031
γj,k=softmax(W5vj,k+W6q)
其中,W5、W6为为权重参数,γj,k是第j帧中第k个物体的关系值;
(3.2)、将不同时刻的物体关系信息μj按先后顺序构成序列,然后输入至Bi-LSTM网络,从而提取出整个视频的全局物体关系信息μ;
μ=Bi_LSTM(μ12,…,μj,…μN)
(4)、基于全局动作注意力机制提取待处理视频的全局动作信息U;
(4.1)、计算第i个视频片段的特征vi的权重值λi
λi=softmax(W7vi+W8q)
其中,W7、W8为权重参数;
(4.2)、使用全局动作注意力机制计算整个视频的全局动作信息;
Figure BDA0003126547330000032
(5)、提取待处理视频的全局特征向量f;
(5.1)、对三种注意力机制下提取的信息进行融合:
Figure BDA0003126547330000033
表示向量拼接操作;
(5.2)、提取整个视频的全局特征向量f;
Figure BDA0003126547330000034
其中,
Figure BDA0003126547330000035
与φ(q)表示统一向量
Figure BDA0003126547330000036
与q的维度,
Figure BDA0003126547330000037
表示向量的对应元素乘积;
(6)、根据提问的格式输出不同类型答案;
(6.1)、确定待处理的提问的格式,具体包括三种提问格式:选择式、开放式单词、开放式数字;
(6.2)、当待处理的提问为选择式时,将待处理的提问视为一个五分类的场景,再利用LSTM网络提取每类场景的特征cτ,τ=1,2,3,4,5;然后计算出每类场景的概率值
Figure BDA0003126547330000038
最后选出最大的一个概率值作为预测结果;
(6.3)、当待处理的提问为开放式单词时,将待处理的提问视为一个N多分类的场景,然后利用softmax函数提取N类场景的概率矩阵P,最后在概率矩阵P中选择最大概率值对应的单词作为预测结果;
(6.4)、当待处理的提问为开放式数字时,将待处理的提问视为一个线性回归问题,通过全连接层将全局特征向量f转为实数并取整作为预测结果,即最终预测结构为:
Figure BDA0003126547330000041
本发明的发明目的是这样实现的:
本发明基于动作捕捉的注意力网络的视频问答方法,先提取将待处理视频和待处理的提问的特征,然后基于这些特征,通过物体动作注意力机制提取动作信息,通过物体关系注意力机制提取待处理视频的全局物体关系信息,通过全局动作注意力机制提取待处理视频的全局动作信息;接着对三种注意力机制下提取的信息进行融合,提取整个视频的全局特征向量;最后基于全局特征向量根据提问的格式输出不同类型答案。
同时,本发明基于动作捕捉的注意力网络的视频问答方法还具有以下有益效果:
(1)、本发明通过两个不同的注意力模块来分别引导模型从细粒度、粗粒度角度捕捉视频动作,从而获取视频中全局的和局部的动作信息;
(2)、本发明通过物体关系注意力模块额外捕捉视频物体间的动态关系,从而进一步提升回答问题的准确率。
附图说明
图1是本发明基于动作捕捉的注意力网络的视频问答方法流程图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于动作捕捉的注意力网络的视频问答方法流程图。
在本实施例中,如图1所示,本发明一种基于动作捕捉的注意力网络的视频问答方法,包括以下步骤:
S1、特征提取
S1.1、将待处理视频输入至Faster RCNN网络中,提取出每一视频帧中物体的特征,其中,第j帧中第k个物体的特征记为vj,k,j=1,2…,N,k=1,2,…,K,N表示视频的总帧数,K表示每帧画面提取的物体个数;在本实施例中,N的取值为32,K的取值为20,每一个物体的特征的维度为2048;
C取值为8,dr和dm的取值都是2048。
S1.2、将待处理视频分割成多个视频片段,然后将每一个视频片段输入至ResNeXt网络,提取出每一个视频片段的特征,记为vi,i=1,2,…,C,C为待处理视频被分割成视频片段的数量;在本实施例中,C的取值为8,每一个视频片段的特征的维度为2048;
S1.3、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理,提取出提问的特征,记为q;在本实施例中,提问的特征的维度为1024。
为了全面地理解和融合多模态输入,本发明采用多分支注意机制进行特征提取,具体提出了三个不同的注意力模块来分别引导模型从细粒度、粗粒度角度捕捉视频动作,以及物体间的动态关系,过程如下:
S2、基于物体动作注意力机制提取动作信息u;
S2.1、给定任意一个视频,对视频内容的提问往往是针对于某个视频物体前后的动作变化情况。所以捕捉视频中物体自身的动作演变,对于准确回答问答十分有帮助。为此,本发明首先通过双向Bi_LSTM网络提取物体的动作信息uj,k
uj,k=Bi_LSTM(vj,k)
S2.2、使用物体动作注意力机制对不同时刻的特征进行加权,得到当前物体k在整个视频内的全局动作信息uk
Figure BDA0003126547330000051
βj,k=softmax(W1uj,k+W2q)
其中,W1、W2为权重参数;βj,k表示第j帧中第k个物体的重要程度指标,值越大代表越相关,值越小代表越不相关;
S2.3、由于提问往往针对于某个视频物体,所以视频中不相关的视频物体对于回答问题会带来额外的干扰。所以,本发明使用物体动作注意力机制使模型能聚焦最相关的物体,屏蔽不相关物体的影响。最后所有物体动作信息的加权和即为整个视频与提问有关的动作信息u;
Figure BDA0003126547330000061
αk=softmax(W3uk+W4q)
其中,W3、W4为权重参数;αk表示第k个物体与提问的关联程度指标,值越大代表越相关,值越小代表越不相关;
S3、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ;
S3.1、在一些复杂情况下,提问还会涉及到物体之间的关系,例如”What are thetwo men do after hugging?”。此时仅仅关注物体自身的运动情况是不够的,还得关注物体之间的交互关系。本发明的物体关系注意力模块先计算当前视频帧j中的物体关系信息μj
Figure BDA0003126547330000062
γj,k=softmax(W5vj,k+W6q)
其中,W5、W6为为权重参数,γj,k是第j帧中第k个物体的关系值;
S3.2、将不同时刻的物体关系信息μj按先后顺序构成序列,然后输入至Bi-LSTM网络,从而提取出整个视频的全局物体关系信息μ;
μ=Bi_LSTM(μ12,…,μj,…μN)
S4、基于全局动作注意力机制提取待处理视频的全局动作信息U;
S4.1、相比之下,S2.1中物体动作注意力模块获取到的是细粒度的动作信息,本发明还设计了第三个分支,它提供粗粒度的全局动作信息,这对于回答问题也很有用。首先,我们为每一个视频片段的特征计算一个权重值,该权重代表该视频段的动作与提问的相关程度,其中,第i个视频片段的特征vi的权重值λi
λi=softmax(W7vi+W8q)
其中,W7、W8为权重参数;λi的值越大关联度越高;
S4.2、使用全局动作注意力机制将所有视频段的加权和作为整个视频的粗粒度动作信息,即全局动作信息;
Figure BDA0003126547330000063
S5、提取待处理视频的全局特征向量f;
S5.1、在上面三个注意力模块都各自完成信息的提取后,本发明设计了一个输出模块对三个分支的信息进行融合:
Figure BDA0003126547330000071
表示向量拼接操作;
S5.2、提取整个视频的全局特征向量f;
Figure BDA0003126547330000072
其中,
Figure BDA0003126547330000073
与φ(q)表示统一向量
Figure BDA0003126547330000074
与q的维度,
Figure BDA0003126547330000075
表示向量的对应元素乘积;
S6、根据提问的格式输出不同类型答案;
S6.1、确定待处理的提问的格式,具体包括三种提问格式:选择式、开放式单词、开放式数字;
S6.2、当待处理的提问为选择式时,选择式问题会提供五个候选答案作为选项,其中有且只有一个选项是正确的,如果模型选出正确的那个选项,就代表预测正确。对于此类问题,我们将待处理的提问视为一个五分类的场景,再利用LSTM网络提取每类场景的特征cτ,τ=1,2,3,4,5;然后计算出每类场景的概率值
Figure BDA0003126547330000076
最后选出最大的一个概率值作为预测结果;
S6.3、当待处理的提问为开放式单词时,此时不会提供候选答案,我们先收集最常出现的N个单词作为词汇表,然后将待处理的提问视为一个N多分类的场景,然后利用softmax函数提取N类场景的概率矩阵P,最后在概率矩阵P中选择最大概率值对应的单词作为预测结果;其中,概率矩阵P中每类场景的概率值同样以公式
Figure BDA0003126547330000077
计算,τ=1,2,…,N;
S6.4、当待处理的提问为开放式数字时,开放式数字类问题也不会提供任何候选项,它的答案是一个[0,10]之间的整数,我们将待处理的提问视为一个线性回归问题,通过全连接层将全局特征向量f转为实数并取整作为预测结果,即最终预测结构为:
Figure BDA0003126547330000078
本实施例在两个个大型的基准数据集1(TGIF-QA)和数据集2(MSRVTT-QA)上测试该方法的效果,如表1、表2所示,从实验的效果可以可知,本发明提出的方法优于最高水平的方法。
表1数据集1上的实验结果
Figure BDA0003126547330000079
Figure BDA0003126547330000081
从表中可以得出,本发明提出的模型在绝大多数子任务中取得了最好的表现,在数据集1中的动作转移和视频帧问答两个子任务上分别取得了82.9%和58.3%的最高准确率,在动作计数子任务上取得了3.74的最低均方误差。
表2数据集2上的实验结果
模型 什么 怎样 什么时候 什么地点 总体准确率
空间注意力模型 24.5 41.2 78.0 76.5 34.9 30.9
共内存模型 23.9 42.5 74.1 69.0 42.9 32.0
异构内存模型 26.5 43.6 82.4 76.0 28.6 33.0
时空共注意力模型 27.4 45.4 83.7 74.0 33.2 34.2
问题注意力模型 27.9 45.6 83.0 75.7 31.6 34.6
集联条件关系模型 29.4 44.5 82.9 77.1 33.6 35.3
多交互模型 29.5 45.0 83.2 74.7 42.4 35.4
异构图模型 29.2 45.7 83.5 75.2 34.0 35.5
本专利(MAAN) 30.5 47.3 81.5 76.4 32.0 36.8
从表中可以得出,本发明提出的模型在数据集2上的取得了36.8%的整体准确率,比现有的方法都更高。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于动作捕捉的注意力网络的视频问答方法,其特征在于,包括以下步骤:
(1)、特征提取
(1.1)、将待处理视频输入至Faster RCNN网络中,提取出每一视频帧中物体的特征,其中,第j帧中第k个物体的特征记为vj,k,j=1,2…,N,k=1,2,…,K,N表示视频的总帧数,K表示每帧画面提取的物体个数;
(1.2)、将待处理视频分割成多个视频片段,然后将每一个视频片段输入至ResNeXt网络,提取出每一个视频片段的特征,记为vi,i=1,2,…,C,C为待处理视频被分割成视频片段的数量;
(1.3)、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理,提取出提问的特征,记为q;
(2)、基于物体动作注意力机制提取动作信息u;
(2.1)、通过双向Bi_LSTM网络提取物体的动作信息uj,k
uj,k=Bi_LSTM(vj,k)
(2.2)、使用物体动作注意力机制对不同时刻的特征进行加权,得到当前物体k在整个视频内的全局动作信息uk
Figure QLYQS_1
βj,k=softmax(W1uj,k+W2q)
其中,W1、W2为权重参数;βj,k表示第j帧中第k个物体的重要程度指标;
(2.3)、使用物体动作注意力机制提取整个视频与提问有关的动作信息u;
Figure QLYQS_2
αk=softmax(W3uk+W4q)
其中,W3、W4为权重参数;αk表示第k个物体与提问的关联程度指标;
(3)、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ;
(3.1)、使用物体关系注意力机制计算当前视频帧j中的物体关系信息μj
Figure QLYQS_3
γj,k=softmax(W5vj,k+W6q)
其中,W5、W6为为权重参数,γj,k是第j帧中第k个物体的关系值;
(3.2)、将不同时刻的物体关系信息μj按先后顺序构成序列,然后输入至Bi-LSTM网络,从而提取出整个视频的全局物体关系信息μ;
μ=Bi_LSTM(μ12,…,μj,…μN)
(4)、基于全局动作注意力机制提取待处理视频的全局动作信息U;
(4.1)、计算第i个视频片段的特征vi的权重值λi
λi=softmax(W7vi+W8q)
其中,W7、W8为权重参数;
(4.2)、使用全局动作注意力机制计算整个视频的全局动作信息;
Figure QLYQS_4
(5)、提取待处理视频的全局特征向量f;
(5.1)、对三种注意力机制下提取的信息进行融合:
Figure QLYQS_5
表示向量拼接操作;
(5.2)、提取整个视频的全局特征向量f;
Figure QLYQS_6
其中,
Figure QLYQS_7
与φ(q)表示统一向量
Figure QLYQS_8
与q的维度,
Figure QLYQS_9
表示向量的对应元素乘积;
(6)、根据提问的格式输出不同类型答案;
(6.1)、确定待处理的提问的格式,具体包括三种提问格式:选择式、开放式单词、开放式数字;
(6.2)、当待处理的提问为选择式时,将待处理的提问视为一个五分类的场景,再利用LSTM网络提取每类场景的特征cτ,τ=1,2,3,4,5;然后计算出每类场景的概率值
Figure QLYQS_10
最后选出最大的一个概率值作为预测结果;
(6.3)、当待处理的提问为开放式单词时,将待处理的提问视为一个N多分类的场景,然后利用softmax函数提取N类场景的概率矩阵P,最后在概率矩阵P中选择最大概率值对应的单词作为预测结果;
(6.4)、当待处理的提问为开放式数字时,将待处理的提问视为一个线性回归问题,通过全连接层将全局特征向量f转为实数并取整作为预测结果,即最终预测结果为:
Figure QLYQS_11
CN202110692149.0A 2021-06-22 2021-06-22 一种基于动作捕捉的注意力网络的视频问答方法 Active CN113536952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110692149.0A CN113536952B (zh) 2021-06-22 2021-06-22 一种基于动作捕捉的注意力网络的视频问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110692149.0A CN113536952B (zh) 2021-06-22 2021-06-22 一种基于动作捕捉的注意力网络的视频问答方法

Publications (2)

Publication Number Publication Date
CN113536952A CN113536952A (zh) 2021-10-22
CN113536952B true CN113536952B (zh) 2023-04-21

Family

ID=78125609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110692149.0A Active CN113536952B (zh) 2021-06-22 2021-06-22 一种基于动作捕捉的注意力网络的视频问答方法

Country Status (1)

Country Link
CN (1) CN113536952B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330337B (zh) * 2021-12-29 2023-04-07 电子科技大学 一种用于社交媒体上的谣言检测方法
CN114911930B (zh) * 2022-04-15 2024-09-13 中山大学 一种全局与局部互补的双向注意的视频问答方法与系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110727824A (zh) * 2019-10-11 2020-01-24 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112036276A (zh) * 2020-08-19 2020-12-04 北京航空航天大学 一种人工智能视频问答方法
CN112084319A (zh) * 2020-09-29 2020-12-15 四川省人工智能研究院(宜宾) 一种基于动作的关系网络视频问答系统及方法
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852646B2 (en) * 2015-06-16 2017-12-26 International Business Machines Corporation Providing question answering responses to how-to procedural questions
US10503978B2 (en) * 2017-07-14 2019-12-10 Nec Corporation Spatio-temporal interaction network for learning object interactions
US11580745B2 (en) * 2017-08-17 2023-02-14 National University Of Singapore Video visual relation detection methods and systems
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
US11487999B2 (en) * 2019-12-09 2022-11-01 Salesforce.Com, Inc. Spatial-temporal reasoning through pretrained language models for video-grounded dialogues

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110727824A (zh) * 2019-10-11 2020-01-24 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112036276A (zh) * 2020-08-19 2020-12-04 北京航空航天大学 一种人工智能视频问答方法
CN112084319A (zh) * 2020-09-29 2020-12-15 四川省人工智能研究院(宜宾) 一种基于动作的关系网络视频问答系统及方法
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Jiang J等."Divide and conquer:Question-guided spatio-temporal contextual attention for video question answering".《The AAAI Conference on Artificial Intelligence》.2020,第11101-11108页. *
Saqur R等."Multimodal graph networks for compositional generalization in visual question answering".《Advances in Neural Information Processing Systems 33》.2020,第1-12页. *
Zhang W等."Frame augmented alternating attention network for video question answering".《IEEE Trans。Multim》.2020,第22卷(第4期),第1032-1041页. *
孙广路等."针对长视频问答的深度记忆融合模型".《哈尔滨理工大学学报》.2021,第1-8页. *
王雷全等."利用全局与局部帧级特征进行基于共享注意力的视频问答".《计算机科学》.2021,第1-9页. *
许振雷等."基于先验注意力机制MASK的视频问答方案".《计算机工程》.2020,第1-8页. *

Also Published As

Publication number Publication date
CN113536952A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113610126B (zh) 基于多目标检测模型无标签的知识蒸馏方法及存储介质
CN113536952B (zh) 一种基于动作捕捉的注意力网络的视频问答方法
CN110909673A (zh) 一种基于自然语言描述的行人再识别方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN109711422A (zh) 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
CN110837846A (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN109598220A (zh) 一种基于多元输入多尺度卷积的人数统计方法
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN111898704B (zh) 对内容样本进行聚类的方法和装置
CN114048351A (zh) 一种基于时空关系增强的跨模态文本-视频检索方法
CN110717401A (zh) 年龄估计方法及装置、设备、存储介质
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN114154016A (zh) 基于目标空间语义对齐的视频描述方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN111582170A (zh) 利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统
CN114580525A (zh) 一种面向含缺失数据的手势动作分类方法
CN112560668B (zh) 一种基于场景先验知识的人体行为识别方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN105787045A (zh) 一种用于可视媒体语义索引的精度增强方法
CN112528077A (zh) 基于视频嵌入的视频人脸检索方法及系统
CN116681921A (zh) 一种基于多特征损失函数融合的目标标注方法及系统
Tan et al. Active learning for deep object detection by fully exploiting unlabeled data
CN115272688A (zh) 一种基于元特征的小样本学习图像分类方法
CN114359568A (zh) 一种基于多粒度特征的多标签场景图生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant