CN113536952A - 一种基于动作捕捉的注意力网络的视频问答方法 - Google Patents

一种基于动作捕捉的注意力网络的视频问答方法 Download PDF

Info

Publication number
CN113536952A
CN113536952A CN202110692149.0A CN202110692149A CN113536952A CN 113536952 A CN113536952 A CN 113536952A CN 202110692149 A CN202110692149 A CN 202110692149A CN 113536952 A CN113536952 A CN 113536952A
Authority
CN
China
Prior art keywords
video
question
processed
extracting
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110692149.0A
Other languages
English (en)
Other versions
CN113536952B (zh
Inventor
杨阳
杨双吉
彭亮
王国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110692149.0A priority Critical patent/CN113536952B/zh
Publication of CN113536952A publication Critical patent/CN113536952A/zh
Application granted granted Critical
Publication of CN113536952B publication Critical patent/CN113536952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于动作捕捉的注意力网络的视频问答方法,先提取将待处理视频和待处理的提问的特征,然后基于这些特征,通过物体动作注意力机制提取动作信息,通过物体关系注意力机制提取待处理视频的全局物体关系信息,通过全局动作注意力机制提取待处理视频的全局动作信息;接着对三种注意力机制下提取的信息进行融合,提取整个视频的全局特征向量;最后基于全局特征向量根据提问的格式输出不同类型答案。

Description

一种基于动作捕捉的注意力网络的视频问答方法
技术领域
本发明属于视频问答技术领域,更为具体地讲,涉及一种基于动作捕捉的注意力网络的视频问答方法。
背景技术
视频问答(Video Question Answering,Video QA)的主要目标是:输入任意的一个视频和一个对于该视频内容的提问,模型能通过对多模态输入的理解和推理,自动找出问题的答案。解决这个任务的典型方法是先用一个循环神经网络(RNN)处理问题文本,得到问题的特征向量;同时用一个卷积神经网络(CNN)逐帧处理输入视频,得到视频的特征向量;最后将两个模态的特征进行融合,并通过输出模块得到最终预测的答案。
现有的一些方法使用视觉或文本注意机制,帮助模型能更精准地关注到视频中的关键帧或问题中的关键单词。其次,为了给模型提供一些额外的知识,另一些方法利用了视频物体中的外部数据(如百科信息),它提供了关于该物体的一些常识信息,从而帮助提升回答问题的准确率。还有一些方法对视频帧中的物体关系进行建模,捕捉物体间关系在时间上的演变情况,从而使模型对输入能有更全面、更深层次的理解。
然而在视频帧的层面(粗粒度),现有方法通常对帧的整体变化进行建模,由于视频帧中可能包含多个物体而往往只有少量物体与提问有关,所以这是一种粗粒度的方法,它的识别精确度有限;其次,在视频帧中的物体层面(细粒度),现有的方法通常对同一帧的物体间的关系进行建模,并捕捉这种交互关系的动态变化情况。但是它们忽略了物体自身的动作变化情况,这对于回答问题同样十分关键。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于动作捕捉的注意力网络的视频问答方法,通过设计一个基于动作捕捉的注意力网络(MAAN),能够同时在细粒度和粗粒度层面捕捉视频中所有物体自身的动作改变情况,并结合提问得到预测的答案。
为实现上述发明目的,本发明一种基于动作捕捉的注意力网络的视频问答方法,其特征在于,包括以下步骤:
(1)、特征提取
(1.1)、将待处理视频输入至Faster RCNN网络中,提取出每一视频帧中物体的特征,其中,第j帧中第k个物体的特征记为vj,k,j=1,2…,N,k=1,2,…,K,N表示视频的总帧数,K表示每帧画面提取的物体个数;
(1.2)、将待处理视频分割成多个视频片段,然后将每一个视频片段输入至ResNeXt网络,提取出每一个视频片段的特征,记为vi,i=1,2,…,C,C为待处理视频被分割成视频片段的数量;
(1.3)、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理,提取出提问的特征,记为q;
(2)、基于物体动作注意力机制提取动作信息u;
(2.1)、通过双向Bi_LSTM网络提取物体的动作信息uj,k
uj,k=Bi_LSTM(vj,k)
(2.2)、使用物体动作注意力机制对不同时刻的特征进行加权,得到当前物体k在整个视频内的全局动作信息uk
Figure BDA0003126547330000021
βj,k=softmax(W1uj,k+W2q)
其中,W1、W2为权重参数;βj,k表示第j帧中第k个物体的重要程度指标;
(2.3)、使用物体动作注意力机制提取整个视频与提问有关的动作信息u;
Figure BDA0003126547330000022
αk=softmax(W3uk+W4q)
其中,W3、W4为权重参数;αk表示第k个物体与提问的关联程度指标;
(3)、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ;
(3.1)、使用物体关系注意力机制计算当前视频帧j中的物体关系信息μj
Figure BDA0003126547330000031
γj,k=softmax(W5vj,k+W6q)
其中,W5、W6为为权重参数,γj,k是第j帧中第k个物体的关系值;
(3.2)、将不同时刻的物体关系信息μj按先后顺序构成序列,然后输入至Bi-LSTM网络,从而提取出整个视频的全局物体关系信息μ;
μ=Bi_LSTM(μ12,…,μj,…μN)
(4)、基于全局动作注意力机制提取待处理视频的全局动作信息U;
(4.1)、计算第i个视频片段的特征vi的权重值λi
λi=softmax(W7vi+W8q)
其中,W7、W8为权重参数;
(4.2)、使用全局动作注意力机制计算整个视频的全局动作信息;
Figure BDA0003126547330000032
(5)、提取待处理视频的全局特征向量f;
(5.1)、对三种注意力机制下提取的信息进行融合:
Figure BDA0003126547330000033
表示向量拼接操作;
(5.2)、提取整个视频的全局特征向量f;
Figure BDA0003126547330000034
其中,
Figure BDA0003126547330000035
与φ(q)表示统一向量
Figure BDA0003126547330000036
与q的维度,
Figure BDA0003126547330000037
表示向量的对应元素乘积;
(6)、根据提问的格式输出不同类型答案;
(6.1)、确定待处理的提问的格式,具体包括三种提问格式:选择式、开放式单词、开放式数字;
(6.2)、当待处理的提问为选择式时,将待处理的提问视为一个五分类的场景,再利用LSTM网络提取每类场景的特征cτ,τ=1,2,3,4,5;然后计算出每类场景的概率值
Figure BDA0003126547330000038
最后选出最大的一个概率值作为预测结果;
(6.3)、当待处理的提问为开放式单词时,将待处理的提问视为一个N多分类的场景,然后利用softmax函数提取N类场景的概率矩阵P,最后在概率矩阵P中选择最大概率值对应的单词作为预测结果;
(6.4)、当待处理的提问为开放式数字时,将待处理的提问视为一个线性回归问题,通过全连接层将全局特征向量f转为实数并取整作为预测结果,即最终预测结构为:
Figure BDA0003126547330000041
本发明的发明目的是这样实现的:
本发明基于动作捕捉的注意力网络的视频问答方法,先提取将待处理视频和待处理的提问的特征,然后基于这些特征,通过物体动作注意力机制提取动作信息,通过物体关系注意力机制提取待处理视频的全局物体关系信息,通过全局动作注意力机制提取待处理视频的全局动作信息;接着对三种注意力机制下提取的信息进行融合,提取整个视频的全局特征向量;最后基于全局特征向量根据提问的格式输出不同类型答案。
同时,本发明基于动作捕捉的注意力网络的视频问答方法还具有以下有益效果:
(1)、本发明通过两个不同的注意力模块来分别引导模型从细粒度、粗粒度角度捕捉视频动作,从而获取视频中全局的和局部的动作信息;
(2)、本发明通过物体关系注意力模块额外捕捉视频物体间的动态关系,从而进一步提升回答问题的准确率。
附图说明
图1是本发明基于动作捕捉的注意力网络的视频问答方法流程图;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于动作捕捉的注意力网络的视频问答方法流程图。
在本实施例中,如图1所示,本发明一种基于动作捕捉的注意力网络的视频问答方法,包括以下步骤:
S1、特征提取
S1.1、将待处理视频输入至Faster RCNN网络中,提取出每一视频帧中物体的特征,其中,第j帧中第k个物体的特征记为vj,k,j=1,2…,N,k=1,2,…,K,N表示视频的总帧数,K表示每帧画面提取的物体个数;在本实施例中,N的取值为32,K的取值为20,每一个物体的特征的维度为2048;
C取值为8,dr和dm的取值都是2048。
S1.2、将待处理视频分割成多个视频片段,然后将每一个视频片段输入至ResNeXt网络,提取出每一个视频片段的特征,记为vi,i=1,2,…,C,C为待处理视频被分割成视频片段的数量;在本实施例中,C的取值为8,每一个视频片段的特征的维度为2048;
S1.3、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理,提取出提问的特征,记为q;在本实施例中,提问的特征的维度为1024。
为了全面地理解和融合多模态输入,本发明采用多分支注意机制进行特征提取,具体提出了三个不同的注意力模块来分别引导模型从细粒度、粗粒度角度捕捉视频动作,以及物体间的动态关系,过程如下:
S2、基于物体动作注意力机制提取动作信息u;
S2.1、给定任意一个视频,对视频内容的提问往往是针对于某个视频物体前后的动作变化情况。所以捕捉视频中物体自身的动作演变,对于准确回答问答十分有帮助。为此,本发明首先通过双向Bi_LSTM网络提取物体的动作信息uj,k
uj,k=Bi_LSTM(vj,k)
S2.2、使用物体动作注意力机制对不同时刻的特征进行加权,得到当前物体k在整个视频内的全局动作信息uk
Figure BDA0003126547330000051
βj,k=softmax(W1uj,k+W2q)
其中,W1、W2为权重参数;βj,k表示第j帧中第k个物体的重要程度指标,值越大代表越相关,值越小代表越不相关;
S2.3、由于提问往往针对于某个视频物体,所以视频中不相关的视频物体对于回答问题会带来额外的干扰。所以,本发明使用物体动作注意力机制使模型能聚焦最相关的物体,屏蔽不相关物体的影响。最后所有物体动作信息的加权和即为整个视频与提问有关的动作信息u;
Figure BDA0003126547330000061
αk=softmax(W3uk+W4q)
其中,W3、W4为权重参数;αk表示第k个物体与提问的关联程度指标,值越大代表越相关,值越小代表越不相关;
S3、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ;
S3.1、在一些复杂情况下,提问还会涉及到物体之间的关系,例如”What are thetwo men do after hugging?”。此时仅仅关注物体自身的运动情况是不够的,还得关注物体之间的交互关系。本发明的物体关系注意力模块先计算当前视频帧j中的物体关系信息μj
Figure BDA0003126547330000062
γj,k=softmax(W5vj,k+W6q)
其中,W5、W6为为权重参数,γj,k是第j帧中第k个物体的关系值;
S3.2、将不同时刻的物体关系信息μj按先后顺序构成序列,然后输入至Bi-LSTM网络,从而提取出整个视频的全局物体关系信息μ;
μ=Bi_LSTM(μ12,…,μj,…μN)
S4、基于全局动作注意力机制提取待处理视频的全局动作信息U;
S4.1、相比之下,S2.1中物体动作注意力模块获取到的是细粒度的动作信息,本发明还设计了第三个分支,它提供粗粒度的全局动作信息,这对于回答问题也很有用。首先,我们为每一个视频片段的特征计算一个权重值,该权重代表该视频段的动作与提问的相关程度,其中,第i个视频片段的特征vi的权重值λi
λi=softmax(W7vi+W8q)
其中,W7、W8为权重参数;λi的值越大关联度越高;
S4.2、使用全局动作注意力机制将所有视频段的加权和作为整个视频的粗粒度动作信息,即全局动作信息;
Figure BDA0003126547330000063
S5、提取待处理视频的全局特征向量f;
S5.1、在上面三个注意力模块都各自完成信息的提取后,本发明设计了一个输出模块对三个分支的信息进行融合:
Figure BDA0003126547330000071
表示向量拼接操作;
S5.2、提取整个视频的全局特征向量f;
Figure BDA0003126547330000072
其中,
Figure BDA0003126547330000073
与φ(q)表示统一向量
Figure BDA0003126547330000074
与q的维度,
Figure BDA0003126547330000075
表示向量的对应元素乘积;
S6、根据提问的格式输出不同类型答案;
S6.1、确定待处理的提问的格式,具体包括三种提问格式:选择式、开放式单词、开放式数字;
S6.2、当待处理的提问为选择式时,选择式问题会提供五个候选答案作为选项,其中有且只有一个选项是正确的,如果模型选出正确的那个选项,就代表预测正确。对于此类问题,我们将待处理的提问视为一个五分类的场景,再利用LSTM网络提取每类场景的特征cτ,τ=1,2,3,4,5;然后计算出每类场景的概率值
Figure BDA0003126547330000076
最后选出最大的一个概率值作为预测结果;
S6.3、当待处理的提问为开放式单词时,此时不会提供候选答案,我们先收集最常出现的N个单词作为词汇表,然后将待处理的提问视为一个N多分类的场景,然后利用softmax函数提取N类场景的概率矩阵P,最后在概率矩阵P中选择最大概率值对应的单词作为预测结果;其中,概率矩阵P中每类场景的概率值同样以公式
Figure BDA0003126547330000077
计算,τ=1,2,…,N;
S6.4、当待处理的提问为开放式数字时,开放式数字类问题也不会提供任何候选项,它的答案是一个[0,10]之间的整数,我们将待处理的提问视为一个线性回归问题,通过全连接层将全局特征向量f转为实数并取整作为预测结果,即最终预测结构为:
Figure BDA0003126547330000078
本实施例在两个个大型的基准数据集1(TGIF-QA)和数据集2(MSRVTT-QA)上测试该方法的效果,如表1、表2所示,从实验的效果可以可知,本发明提出的方法优于最高水平的方法。
表1数据集1上的实验结果
Figure BDA0003126547330000079
Figure BDA0003126547330000081
从表中可以得出,本发明提出的模型在绝大多数子任务中取得了最好的表现,在数据集1中的动作转移和视频帧问答两个子任务上分别取得了82.9%和58.3%的最高准确率,在动作计数子任务上取得了3.74的最低均方误差。
表2数据集2上的实验结果
模型 什么 怎样 什么时候 什么地点 总体准确率
空间注意力模型 24.5 41.2 78.0 76.5 34.9 30.9
共内存模型 23.9 42.5 74.1 69.0 42.9 32.0
异构内存模型 26.5 43.6 82.4 76.0 28.6 33.0
时空共注意力模型 27.4 45.4 83.7 74.0 33.2 34.2
问题注意力模型 27.9 45.6 83.0 75.7 31.6 34.6
集联条件关系模型 29.4 44.5 82.9 77.1 33.6 35.3
多交互模型 29.5 45.0 83.2 74.7 42.4 35.4
异构图模型 29.2 45.7 83.5 75.2 34.0 35.5
本专利(MAAN) 30.5 47.3 81.5 76.4 32.0 36.8
从表中可以得出,本发明提出的模型在数据集2上的取得了36.8%的整体准确率,比现有的方法都更高。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于动作捕捉的注意力网络的视频问答方法,其特征在于,包括以下步骤:
(1)、特征提取
(1.1)、将待处理视频输入至Faster RCNN网络中,提取出每一视频帧中物体的特征,其中,第j帧中第k个物体的特征记为vj,k,j=1,2…,N,k=1,2,…,K,N表示视频的总帧数,K表示每帧画面提取的物体个数;
(1.2)、将待处理视频分割成多个视频片段段,然后将每一个视频片段输入至ResNeXt网络,提取出每一个视频片段的特征,记为vi,i=1,2,…,C,C为待处理视频被分割成视频片段的数量;
(1.3)、将待处理的提问先后经过Bi_LSTM网络和自注意力机制的处理,提取出提问的特征,记为q;
(2)、基于物体动作注意力机制提取动作信息u;
(2.1)、通过双向Bi_LSTM网络提取物体的动作信息uj,k
uj,k=Bi_LSTM(vj,k)
(2.2)、使用物体动作注意力机制对不同时刻的特征进行加权,得到当前物体k在整个视频内的全局动作信息uk
Figure FDA0003126547320000011
βj,k=softmax(W1uj,k+W2q)
其中,W1、W2为权重参数;βj,k表示第j帧中第k个物体的重要程度指标;
(2.3)、使用物体动作注意力机制提取整个视频与提问有关的动作信息u;
Figure FDA0003126547320000012
αk=softmax(W3uk+W4q)
其中,W3、W4为权重参数;αk表示第k个物体与提问的关联程度指标;
(3)、基于物体关系注意力机制提取待处理视频的全局物体关系信息μ;
(3.1)、使用物体关系注意力机制计算当前视频帧j中的物体关系信息μj
Figure FDA0003126547320000021
γj,k=softmax(W5vj,k+W6q)
其中,W5、W6为为权重参数,γj,k是第j帧中第k个物体的关系值;
(3.2)、将不同时刻的物体关系信息μj按先后顺序构成序列,然后输入至Bi-LSTM网络,从而提取出整个视频的全局物体关系信息μ;
μ=Bi_LSTM(μ12,…,μj,…μN)
(4)、基于全局动作注意力机制提取待处理视频的全局动作信息U;
(4.1)、计算第i个视频片段的特征vi的权重值λi
λi=softmax(W7vi+W8q)
其中,W7、W8为权重参数;
(4.2)、使用全局动作注意力机制计算整个视频的全局动作信息;
Figure FDA0003126547320000022
(5)、提取待处理视频的全局特征向量f;
(5.1)、对三种注意力机制下提取的信息进行融合:
Figure FDA0003126547320000023
表示向量拼接操作;
(5.2)、提取整个视频的全局特征向量f;
Figure FDA0003126547320000024
其中,
Figure FDA0003126547320000025
与φ(q)表示统一向量
Figure FDA0003126547320000026
与q的维度,
Figure FDA0003126547320000027
表示向量的对应元素乘积;
(6)、根据提问的格式输出不同类型答案;
(6.1)、确定待处理的提问的格式,具体包括三种提问格式:选择式、开放式单词、开放式数字;
(6.2)、当待处理的提问为选择式时,将待处理的提问视为一个五分类的场景,再利用LSTM网络提取每类场景的特征cτ,τ=1,2,3,4,5;然后计算出每类场景的概率值
Figure FDA0003126547320000028
最后选出最大的一个概率值作为预测结果;
(6.3)、当待处理的提问为开放式单词时,将待处理的提问视为一个N多分类的场景,然后利用softmax函数提取N类场景的概率矩阵P,最后在概率矩阵P中选择最大概率值对应的单词作为预测结果;
(6.4)、当待处理的提问为开放式数字时,将待处理的提问视为一个线性回归问题,通过全连接层将全局特征向量f转为实数并取整作为预测结果,即最终预测结果为:
Figure FDA0003126547320000031
CN202110692149.0A 2021-06-22 2021-06-22 一种基于动作捕捉的注意力网络的视频问答方法 Active CN113536952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110692149.0A CN113536952B (zh) 2021-06-22 2021-06-22 一种基于动作捕捉的注意力网络的视频问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110692149.0A CN113536952B (zh) 2021-06-22 2021-06-22 一种基于动作捕捉的注意力网络的视频问答方法

Publications (2)

Publication Number Publication Date
CN113536952A true CN113536952A (zh) 2021-10-22
CN113536952B CN113536952B (zh) 2023-04-21

Family

ID=78125609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110692149.0A Active CN113536952B (zh) 2021-06-22 2021-06-22 一种基于动作捕捉的注意力网络的视频问答方法

Country Status (1)

Country Link
CN (1) CN113536952B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330337A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种用于社交媒体上的谣言检测方法
CN114911930A (zh) * 2022-04-15 2022-08-16 中山大学 一种全局与局部互补的双向注意的视频问答方法与系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160371992A1 (en) * 2015-06-16 2016-12-22 International Business Machines Corporation Providing question answering responses to how-to procedural questions
US20190019037A1 (en) * 2017-07-14 2019-01-17 Nec Laboratories America, Inc. Spatio-temporal interaction network for learning object interactions
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110727824A (zh) * 2019-10-11 2020-01-24 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
US20200193228A1 (en) * 2017-10-31 2020-06-18 Beijing Sensetime Technology Development Co., Ltd. Image question answering method, apparatus and system, and storage medium
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112036276A (zh) * 2020-08-19 2020-12-04 北京航空航天大学 一种人工智能视频问答方法
CN112084319A (zh) * 2020-09-29 2020-12-15 四川省人工智能研究院(宜宾) 一种基于动作的关系网络视频问答系统及方法
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
US20210133461A1 (en) * 2017-08-17 2021-05-06 National University Of Singapore Video visual relation detection methods and systems
US20210174162A1 (en) * 2019-12-09 2021-06-10 Salesforce.Com, Inc. Spatial-Temporal Reasoning Through Pretrained Language Models for Video-Grounded Dialogues

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160371992A1 (en) * 2015-06-16 2016-12-22 International Business Machines Corporation Providing question answering responses to how-to procedural questions
US20190019037A1 (en) * 2017-07-14 2019-01-17 Nec Laboratories America, Inc. Spatio-temporal interaction network for learning object interactions
US20210133461A1 (en) * 2017-08-17 2021-05-06 National University Of Singapore Video visual relation detection methods and systems
US20200193228A1 (en) * 2017-10-31 2020-06-18 Beijing Sensetime Technology Development Co., Ltd. Image question answering method, apparatus and system, and storage medium
CN109829049A (zh) * 2019-01-28 2019-05-31 杭州一知智能科技有限公司 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110727824A (zh) * 2019-10-11 2020-01-24 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
US20210174162A1 (en) * 2019-12-09 2021-06-10 Salesforce.Com, Inc. Spatial-Temporal Reasoning Through Pretrained Language Models for Video-Grounded Dialogues
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112036276A (zh) * 2020-08-19 2020-12-04 北京航空航天大学 一种人工智能视频问答方法
CN112084319A (zh) * 2020-09-29 2020-12-15 四川省人工智能研究院(宜宾) 一种基于动作的关系网络视频问答系统及方法
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JIANG J等: ""Divide and conquer:Question-guided spatio-temporal contextual attention for video question answering"" *
SAQUR R等: ""Multimodal graph networks for compositional generalization in visual question answering"" *
ZHANG W等: ""Frame augmented alternating attention network for video question answering"" *
孙广路等: ""针对长视频问答的深度记忆融合模型"" *
王雷全等: ""利用全局与局部帧级特征进行基于共享注意力的视频问答"" *
许振雷等: ""基于先验注意力机制MASK的视频问答方案"" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114330337A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种用于社交媒体上的谣言检测方法
CN114330337B (zh) * 2021-12-29 2023-04-07 电子科技大学 一种用于社交媒体上的谣言检测方法
CN114911930A (zh) * 2022-04-15 2022-08-16 中山大学 一种全局与局部互补的双向注意的视频问答方法与系统

Also Published As

Publication number Publication date
CN113536952B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110119786B (zh) 文本话题分类方法及装置
US11663268B2 (en) Method and system for retrieving video temporal segments
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
CN110598620B (zh) 基于深度神经网络模型的推荐方法和装置
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN111210446B (zh) 一种视频目标分割方法、装置和设备
CN111464881B (zh) 基于自优化机制的全卷积视频描述生成方法
CN113536952A (zh) 一种基于动作捕捉的注意力网络的视频问答方法
CN112381763A (zh) 一种表面缺陷检测方法
CN110287879B (zh) 一种基于注意力机制的视频行为识别方法
CN102193946A (zh) 为媒体文件添加标签方法和使用该方法的系统
CN110993102A (zh) 一种基于校园大数据的学生行为与心理检测结果的精准分析方法及系统
CN111898704B (zh) 对内容样本进行聚类的方法和装置
JP2022520511A (ja) ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置
CN113901924A (zh) 一种文档表格的检测方法及装置
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
CN114154016A (zh) 基于目标空间语义对齐的视频描述方法
CN113392724A (zh) 基于多任务学习的遥感场景分类方法
CN117456232A (zh) 一种基于多尺度特征的半监督少样本图像分类方法
CN117292307B (zh) 一种基于粗时间粒度的时序动作提名生成方法及系统
CN112560668B (zh) 一种基于场景先验知识的人体行为识别方法
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN115797952B (zh) 基于深度学习的手写英文行识别方法及系统
CN114359568A (zh) 一种基于多粒度特征的多标签场景图生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant