CN107818306A - 一种基于注意力模型的视频问答方法 - Google Patents

一种基于注意力模型的视频问答方法 Download PDF

Info

Publication number
CN107818306A
CN107818306A CN201711049905.8A CN201711049905A CN107818306A CN 107818306 A CN107818306 A CN 107818306A CN 201711049905 A CN201711049905 A CN 201711049905A CN 107818306 A CN107818306 A CN 107818306A
Authority
CN
China
Prior art keywords
video
frame
question
answer
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711049905.8A
Other languages
English (en)
Other versions
CN107818306B (zh
Inventor
韩亚洪
高昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201711049905.8A priority Critical patent/CN107818306B/zh
Publication of CN107818306A publication Critical patent/CN107818306A/zh
Application granted granted Critical
Publication of CN107818306B publication Critical patent/CN107818306B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于注意力模型的视频问答方法,本方法基于编码解码的框架进行设计,采用端到端的方式学习视频的视觉信息和语义信息。通过端到端设计,本方法能够有效的强化视觉信息和语义信息之间的联系。本发明自主设计帧模型来提取视频的特征向量。在编码阶段,通过长短期记忆网络学习视频的场景特征表示,并将其作为解码阶段文本模型的初始状态输入,同时,在文本模型中加入的注意力机制能够有效的增强视频帧和问题之间的联系,更好的解析出视频的语义信息。因此,该基于注意力模型的视频问答方法取得了良好的效果。

Description

一种基于注意力模型的视频问答方法
技术领域
本发明涉及计算机视觉、多媒体分析领域,尤其涉及一种基于注意力模型的视频问答方法。
背景技术
视频分析是计算机视觉和多媒体分析领域中一项重要的研究课题,也是目前非常有挑战性的热点问题。随着视频数据的急速增长,视频分析吸引了人们的注意力。视频问答作为视频分析的一种媒介,近年来引起了人们的大量关注。
视频问答是指对给定的视频以及针对该视频提出的问题,通过获取他们的视觉信息和语义信息,对问题给出合适的答案的过程。当人们观看一段视频时,会通过视频帧展现的场景信息来获取视频中出现的人物、物体、环境等,场景带来的视觉信息使人们对视频内容有了一个整体的了解;同时,在回答针对视频提出的问题时,人们会把注意力集中在与问题相关的视频帧中,即给予与问题相关的视频帧更多的注意力。基于这种思想,我们针对视频问答任务提出了一种基于注意力模型的视频问答方法,使得视频问答任务有了很大的提升。
近年来,深度学习在视觉任务和自然语言处理任务等方面取得的成果是视频问答任务的主要驱动力。用深度学习框架提取卷积特征应用于动作识别、图片分类和物体检测等方面;另外,循环神经网络,尤其是长短期记忆网络在自然语言处理任务中以及多种时序问题中被广泛使用。为了更好的理解视觉内容,如今最常采用的方法就是将视觉和语言进行结合。最早对视频信息有研究的领域是视频描述,即针对一段视频通过生成自然语言来描述视频的语义信息。视频描述任务的一些想法启发了我们对视频问答任务的思考。在视频描述任务中,Venugopalan等人提出了编码、解码框架,使用端到端的方法来生成视频的语义描述。其中,在视频的编码阶段,通过平均视频帧特征来表示视频,进而进行视频描述。该方法忽略了产生视频语义描述时视频帧之间的差异性。后来,Yao等人对该方法进行了改进,通过使用注意力机制,进而提高了与语义信息相关的视频帧的权重,能够更好的产生视频语义描述。在问答任务中,相比于图像问答,视频问答面临着背景噪音、视频帧之间视觉点变化、视频帧之间视觉点移动速度等问题,迫切要解决的就是有效利用视频帧之间的时间信息。
在视频问答中,如何利用视频帧之间的时间信息来获取更深层的视觉信息,以及如何将其他任务中使用的注意力机制有效的应用到视频问答任务中,是视频问答的关键和难点。本发明针对该问题,提出了一种基于注意力模型的视频问答方法。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于注意力模型的视频问答方法。本发明有效的利用视频中的场景信息,并通过注意力机制将注意力集中在与视频内容和问题相关的视频帧上,从而加大相关视频帧的权重,进而达到对视频问题进行回答的目的。
本发明的目的是通过以下技术方案实现的:
一种基于注意力模型的视频问答方法,包括以下步骤:
(1)从互联网下载视频,并对每个视频提出问题,同时针对问题给出答案,形成<视频,问答对>,构成视频问答训练集;
(2)利用视频截取工具截取视频帧,并对视频帧进行采样,每一帧都是一张静态图像;
(3)构造帧模型,逐帧处理视频帧,得到视频的特征向量;
(4)将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示;
(5)将视频的场景特征表示作为文本模型的初始化,文本模型采用长短期记忆网络,同时,在每个节点处加入了注意力模型,通过端到端的方式进行训练,得到场景-文本模型的参数;
(6)输入待回答问题的视频的特征向量,以及待回答问题的文本特征,通过场景-文本模型预测出合适的答案。
步骤(1)包括以下步骤:
a从互联网下载常用的视频问答数据集为TACoS数据集,该数据集中的小视频构成视频集合Video={video1,…,videoi,…,videoP},其中,videoi表示第i个小视频,P表示视频总数;
b每个小视频有多个对应的问答对,视频videoi对应的问答对为其中,Q表示视频videoi对应的问答对的个数;
c通过现有的视频集合Video以及每个视频对应的问答对QA组成<视频,问答对>,构成视频问答训练集。
步骤(2)中利用视频截取工具截取视频帧时对每个视频的视频帧等间隔采样N帧。
与现有技术相比,本发明的技术方案所带来的有益效果是:
本发明方法基于编码解码的框架进行设计,采用端到端的方式学习视频的视觉信息和语义信息。通过端到端设计,本方法能够有效的强化视觉信息和语义信息之间的联系。本发明自主设计帧模型来提取视频的特征向量。在编码阶段,通过长短期记忆网络学习视频的场景特征表示,并将其作为解码阶段文本模型的初始状态输入,同时,在文本模型中加入的注意力机制能够有效的增强视频帧和问题之间的联系,更好的解析出视频的语义信息。因此,该基于注意力模型的视频问答方法取得了良好的效果。
附图说明
图1是本发明方法的总的概况图。
图2是本发明方法的帧模型示意图
图3是本发明方法的编码阶段示意图。
图4是本发明方法的解码阶段示意图。
图5是本发明方法的结果展示示意图。
具体实施方式
下面结合附图对本发明作进一步的描述。
图1是本发明一种基于注意力模型的视频问答方法的总的概况图。本发明基于编码解码的框架进行设计,采用端到端的方式学习视频的视觉信息和语义信息,从而达到针对给定的视频及相应的问题从选项选择出合适的答案的目的。首先,利用视频截取工具截取视频帧,并对视频帧进行采样;通过自主设计帧模型,得到视频的特征向量;在编码阶段,将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示,并将其作为解码阶段文本模型的初始化输入;文本模型采用长短期记忆网络进行设计,每个节点都有一个问题单词的输入,同时,在每个节点处加入了注意力机制;通过端到端的方式进行训练,得到场景-文本模型的参数。在测试阶段,输入待回答问题的视频的特征向量,以及待回答问题的文本特征,该场景-文本模型能够有效的选择出合适的答案。
图2是本发明一种基于注意力模型的视频问答方法的帧模型示意图。帧模型是基于卷积神经网络设计针对视频帧进行操作的。通过帧模型可以得到视频帧的特征向量表示。首先,调整视频帧的大小为H×W,然后用VGGNet网络提取最后一层卷积层(conv5_3)的特征,得到维度为c×h×w的特征图,其中c表示特征图的通道数,h×w表示每个通道上的空间大小;然后在每个通道上采取sum pooling策略得到一个维度为c的特征向量,即为视频帧的特征向量表示。
图3是本发明一种基于注意力模型的视频问答方法的编码阶段示意图。本发明的编码部分是基于长短期记忆网络进行设计。在该网络中,有一个核心单元:记忆单元c,该单元用来记录网络从当前时刻到下一时刻的状态变化,它被三个门控制:输入门i、遗忘门f和输出门o。在该网络中,σ表示sigmoid函数,tanh表示双曲正切函数,表示相关元素之间的乘积,h表示隐藏单元。在该长短期记忆网络的节点处依次输入视频帧的特征向量,并在最后一个节点得到该视频的场景特征表示。
图4是本发明一种基于注意力模型的视频问答方法的解码阶段示意图。在解码阶段,文本模型是基于长短期记忆网络进行设计的,初始状态为该视频的场景特征表示;在该网络的每个节点处依次输入问题单词的Embedding表示;同时,在每个节点处都加入了注意力机制,注意力机制是由视频的特征向量引导的,它依赖于上一时刻隐藏单元的状态ht-1。通过注意力机制,对每个视频帧的特征向量赋予新的权重,进而对视频的特征向量加权求和生成注意力向量rt并作为t时刻的输入。在该长短期记忆网络的最后一个节点处,得到该视频的文本特征表示。
图5是本发明一种基于注意力模型的视频问答方法的结果展示示意图。本发明的目的是对给定的视频以及针对该视频提出的问题从备选选项中选择出合适的答案。在图中,针对每个视频提出的问题有十个备选选项。通过使用该基于注意力模型的视频问答方法,从备选选项中选择出了正确答案。在图中,正确答案的前面用对号进行标记。
本实施例中选取一个视频和针对该视频提出的问题作为待处理视频问答对象,使用本发明一种基于注意力模型的视频问答方法从备选选项中选择出合适的答案。
1、从互联网下载视频,并对每个视频提出问题,同时针对问题给出答案,形成<视频,问答对>,构成视频问答训练集的步骤如下::
(1)从互联网下载常用的视频问答数据集:TACoS数据集,构成视频集合Video={video1,…,videoi,…,videoP},其中,videoi表示第i个小视频,P表示视频总数。
在TACoS数据集中,根据问题的难易程度,把数据集分为两种:hard和easy;然后将hard和easy分别分为split1,split2和split3三块,其中每一块都包括三个部分:pastpart,present past和future part;最后将past part,present part和future part分别分为训练集、验证集和测试集三部分。在本实施方式中,以hard-split1-present part为例,即此时训练集的视频总数为:P=14283。
(2)每个小视频都会有多个对应的问答对,视频videoi对应的问答对为 其中,Q表示视频videoi对应的问答对的个数。在本实施方式中,我们对应上述视频总数P=14283的问答对总数为
(3)通过现有的视频集合以及每个视频对应的问答对组成<视频,问答对>,构成视频问答训练集。
2、利用视频截取工具截取视频帧,并对视频帧进行采样,每一帧都是一张静态图像的步骤如下:
利用视频截取工具截取视频帧,并对每个视频的视频帧等间隔采样N帧。在本实施方式中设定N=26。
3、构造帧模型,逐帧处理视频帧,得到视频的特征向量的步骤如下:
(1)对每个视频等间隔采样的N=26帧逐帧进行处理。
(2)构造如图2所示的帧模型:
其中,对于视频帧fk(k=1,2,…,N),尺寸调整为H×W,在本实施方式中,H=240,W=320;用VGGNet提取最后一层卷积层(conv5_3)的特征,得到c×h×w的特征图Fk,此时c=512,h=15,w=20,其中表示通道的个数,h×w表示在每个通道上的空间大小;然后我们在每个通道上采取sum pooling策略,得到一个维度为c=512的特征向量。公式为:
Fk=CNNvgg(fk) (1)
xk=SumPooling(Fk) (2)
(3)由步骤(2)知,对于每一视频帧fk(k=1,2,…,N),我们得到一个维度为c=512的特征向量xk。那么,该视频的特征向量为{x1,…,xk,…,xN},维度为N×c,其中N=26表示视频帧的个数,c=512表示每个视频帧特征向量的维度。
4、将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示的步骤如下:
(1)构造如图3所示的长短期记忆网络进行建模,该网络共有N个节点。在本实施方式中,我们设置N=26。
(2)将由步骤3得到的视频的特征向量{x1,…,xk,…,xN}按照顺序依次输入到长短期记忆网络的节点中。
在图3中,ik是输入门,fk是遗忘门,ok是输出门,ck是记忆单元,hk是隐藏单元,各个状态的更新和输出可表示为:
ik=σ(Wxixk+Whihk-1+bi) (3)
fk=σ(Wxfxk+Whfhk-1+bf) (4)
ok=σ(Wxoxk+Whohk-1+bo) (5)
gk=φ(Wxgxk+Whghk-1+bg) (6)
其中,σ(·)表示sigmoid函数,φ(·)表示双曲正切函数,表示元素之间的乘积,Wij是需要训练的参数,bi是偏置向量。
(3)由步骤(2)知,在第N=26个节点,我们得到该长短期记忆网络的最后一个隐藏单元状态h_xN和最后一个记忆单元状态c_xN,然后将隐藏单元状态和记忆单元状态拼接起来的向量{h_xN,c_xN}作为该视频的场景特征表示。
在本实施方式中,该长短期记忆网络隐藏单元的维度设置为256,则视频的场景特征表示{h_xN,c_xN}的维度为512。
5、将视频的场景特征表示作为文本模型的初始化。文本模型采用长短期记忆网络进行设计,同时,在每个节点处加入了注意力模型。采用端到端的方式进行训练,得到场景-文本模型的参数的步骤如下:
(1)文本模型采用长短期记忆网络设计,节点个数为M。在本实施方式中,设置该记忆网络隐藏单元的维度为256,网络节点个数为M=26。
(2)将维度为512的视频的场景特征表示{h_xN,c_xN}作为该文本模型的初始化输入。
(3)在该文本模型中,每个节点输入一个问题单词的特征表示。设给定的问题为q={q1,q2,…,qm}(m≤M),则问题单词的特征表示为:
pi=OH(qi) (9)
yi=Wepi (10)
其中,pi是问题单词qi的one hot向量表示,We矩阵将one hot向量pi转化成了de=512维的Embedding向量yi
即,对于问题q={q1,q2,…,qm},我们得到了其Embedding表示{y1,y2,…,ym}。
(4)在文本模型的每个节点依次输入{y1,y2,…,ym},同时,在每个节点加入注意力机制,各个状态的更新规则为:
it=σ(Wxiyt+Whiht-1+Wrirt+bi) (11)
ft=σ(Wxfyt+Whfht-1+Wrfrt+bf) (12)
ot=σ(Wxoyt+Whoht-1+Wrort+bo) (13)
gt=φ(Wxgyt+Whght-1+Wrgrt+bg) (14)
其中,σ(·)表示sigmoid函数,φ(·)表示双曲正切函数,表示元素之间的乘积,Wij是需要训练的参数,bi是偏置向量,注意力机制由rt引入,其具体的公式如下:
其中,xk为第k帧的特征向量,维度为c=512,指的是在t时刻视频帧xk的权重,该权重反映了视频帧xk与t时刻之前输入的所有问题单词的相关性,它依赖于上一时刻ht-1并由下面的公式得出:
其中,w表示要学习的参数,F表示由步骤3得到的维度为N×c的视频的特征向量,其中N=26表示视频帧的个数,c=512表示每个视频帧特征向量的维度。我们在维度为26×512的视频的特征向量上进行了二维卷积,得到了相关系数进而,对相关系数进行归一化得到了t时刻第k帧的权重
(5)由步骤(4)知,在第M=26个节点,我们得到了该长短期记忆网络的最后一个隐藏单元状态_yM和最后一个记忆单元状态c_yM,其中_yM和c_yM的维度均为256,然后将维度为512的拼接向量{_yM,c_yM}作为该视频的文本特征表示。
(6)使用RMSprop梯度下降的方式优化目标函数。其中,在TACoS数据集的hard部分,除去低频出现的选项,我们设定备选选项的词典为2000。采用端到端的方式训练网络,从而得到训练后的场景-文本模型的参数。
6、输入待回答问题的视频的特征向量,以及待回答问题的文本特征,通过场景-文本模型预测出合适的答案的步骤如下:
(1)提取测试集,其中,视频集合为其中,t表示测试集视频,Pt为测试集视频的个数。我们以hard-split1-present part为例,此时测试集的视频总数为:Pt=2350。
(2)每个测试集小视频都会有多个对应的问答对,视频对应的问答对为其中,Qt表示视频对应的问答对的个数。我们对应上述视频总数Pt=2350的问答对总数为
(3)通过现有的测试集视频集合以及每个视频对应的问答对组成<视频,问答对>,构成视频问答测试集。
在本实施方式中,我们以图5左面的视频为例,说明使用该场景-文本模型选择出合适答案的步骤。
(4)利用本发明设计的帧模型提取视频的特征向量,同时,将该视频对应的问答对通过生成one-hot向量以及Embedding过程生成待输入文本特征。
(5)将视频的特征向量输入到编码阶段的长短期记忆网络中得到视频的场景特征表示,并将其作为文本模型的初始状态输入;在解码阶段的文本模型的节点处依次输入单词的特征表示,并将视频的特征向量作为注意力加入到网络的节点中,从而根据训练好的场景-文本模型选择出合适的答案。
在图5中,每个问题都有十个备选选项,我们使用训练好的场景-文本模型选择出了合适的答案,在正确答案的前面用对号进行标记。
综上:本发明针对视频问答任务提出了一种基于注意力模型的视频问答方法。本方法自主设计帧模型提取视频帧的特征向量,并通过长短期记忆网络得到视频的场景特征表示,进而作为文本模型的初始状态输入,同时,在文本模型的每个节点处引入了注意力机制,选择出与视频内容和问题相关的视频帧,加大相关视频帧的权重,有效的增强视频帧和问题之间的联系,更好的解析出视频的语义信息。因此,该基于注意力模型的视频问答方法取得了良好的效果。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
【1】S.Hochreiter and J.Schmidhuber.《长短期记忆网络》,神经计算会议,1997,9(8):1735-1780.
【2】A.Karpathy and L.Fei-Fei.《基于深度视觉语义队列的图片描述方法》,计算机视觉和模式识别会议,2015,3128-3137.
【3】L.Ma,Z.Lu,and H.Li.《基于卷积神经网络的图片问答方法》,人工智能会议,2016.
【4】M.Ren,R.Kiros,and R.Zemel.《探索多模型和多数据的图片问答方法》,神经信息处理系统会议,2015,2953-2961.
【5】K.Tu,M.Meng,M.W.Lee,T.E.Choe,and S.-C.Zhu.《联合解析视频和文本信息来理解事件和回答问题》,多媒体会议,2014,21(2):42-70.
【6】S.Venugopalan,H.Xu,J.Donahue,M.Rohrbach,R.Mooney,and K.Saenko.《基于卷积神经网络的视频描述方法》,arXiv preprint,2014.
【7】Z.Yang,X.He,J.Gao,L.Deng,and A.Smola.《堆叠的注意力网络来回答图片问题》,计算机视觉和模式识别会议,2016,21-29.
【8】L.Yao,A.Torabi,K.Cho,N.Ballas,C.Pal,H.Larochelle,and A.Courville.《基于时间的视频描述方法》,2015,4507-4515.
【9】K.-H.Zeng,T.-H.Chen,C.-Y.Chuang,Y.-H.Liao,J.C.Niebles,and M.Sun.《利用视频描述学习视频问答》,arXiv preprint,2016.
【10】L.Zhu,Z.Xu,Y.Yang,and A.G.Hauptmann.《基于时间文本的视频问答方法》,arXiv preprint,2015.

Claims (3)

1.一种基于注意力模型的视频问答方法,其特征在于,包括以下步骤:
(1)从互联网下载视频,并对每个视频提出问题,同时针对问题给出答案,形成<视频,问答对>,构成视频问答训练集;
(2)利用视频截取工具截取视频帧,并对视频帧进行采样,每一帧都是一张静态图像;
(3)构造帧模型,逐帧处理视频帧,得到视频的特征向量;
(4)将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示;
(5)将视频的场景特征表示作为文本模型的初始化,文本模型采用长短期记忆网络,同时,在每个节点处加入了注意力模型,通过端到端的方式进行训练,得到场景-文本模型的参数;
(6)输入待回答问题的视频的特征向量,以及待回答问题的文本特征,通过场景-文本模型预测出合适的答案。
2.根据权利要求1所述一种基于注意力模型的视频问答方法,其特征在于,步骤(1)包括以下步骤:
a从互联网下载常用的视频问答数据集为TACoS数据集,该数据集中的小视频构成视频集合Video={video1,…,videoi,…,videoP},其中,videoi表示第i个小视频,P表示视频总数;
b每个小视频有多个对应的问答对,视频videoi对应的问答对为其中,Q表示视频videoi对应的问答对的个数;
c通过现有的视频集合Video以及每个视频对应的问答对QA组成<视频,问答对>,构成视频问答训练集。
3.根据权利要求1所述一种基于注意力模型的视频问答方法,其特征在于,步骤(2)中利用视频截取工具截取视频帧时对每个视频的视频帧等间隔采样N帧。
CN201711049905.8A 2017-10-31 2017-10-31 一种基于注意力模型的视频问答方法 Expired - Fee Related CN107818306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711049905.8A CN107818306B (zh) 2017-10-31 2017-10-31 一种基于注意力模型的视频问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711049905.8A CN107818306B (zh) 2017-10-31 2017-10-31 一种基于注意力模型的视频问答方法

Publications (2)

Publication Number Publication Date
CN107818306A true CN107818306A (zh) 2018-03-20
CN107818306B CN107818306B (zh) 2020-08-07

Family

ID=61603520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711049905.8A Expired - Fee Related CN107818306B (zh) 2017-10-31 2017-10-31 一种基于注意力模型的视频问答方法

Country Status (1)

Country Link
CN (1) CN107818306B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334910A (zh) * 2018-03-30 2018-07-27 国信优易数据有限公司 一种事件检测模型训练方法以及事件检测方法
CN108549850A (zh) * 2018-03-27 2018-09-18 联想(北京)有限公司 一种图像识别方法及电子设备
CN108711847A (zh) * 2018-05-07 2018-10-26 国网山东省电力公司电力科学研究院 一种基于编码解码长短期记忆网络的短期风电功率预测方法
CN108959467A (zh) * 2018-06-20 2018-12-07 华东师范大学 一种基于强化学习的问句和答案句相关度的计算方法
CN109145763A (zh) * 2018-07-27 2019-01-04 天津大学 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN109242140A (zh) * 2018-07-24 2019-01-18 浙江工业大学 一种基于LSTM_Attention网络的交通流预测方法
CN109408680A (zh) * 2018-10-08 2019-03-01 腾讯科技(深圳)有限公司 自动问答方法、装置、设备和计算机可读存储介质
CN109472201A (zh) * 2018-09-29 2019-03-15 天津卡达克数据有限公司 一种基于场景、动作和文本的视频问答方法
CN109840506A (zh) * 2019-02-13 2019-06-04 杭州一知智能科技有限公司 利用结合关系互动的视频转换器解决视频问答任务的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN111464881A (zh) * 2019-01-18 2020-07-28 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN111553467A (zh) * 2020-04-30 2020-08-18 陈永聪 一种实现通用人工智能的方法
CN111598118A (zh) * 2019-12-10 2020-08-28 中山大学 一种视觉问答任务实现方法及系统
CN112106043A (zh) * 2018-12-07 2020-12-18 首尔大学校产学协力团 问题应答装置及方法
CN112307332A (zh) * 2020-10-16 2021-02-02 四川大学 基于用户画像聚类的协同过滤推荐方法、系统及存储介质
CN112860847A (zh) * 2021-01-19 2021-05-28 中国科学院自动化研究所 视频问答的交互方法及系统
CN112905819A (zh) * 2021-01-06 2021-06-04 中国石油大学(华东) 基于复合注意力的原始特征注入网络的视觉问答方法
CN113807222A (zh) * 2021-09-07 2021-12-17 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN115599954A (zh) * 2022-12-12 2023-01-13 广东工业大学(Cn) 一种基于场景图推理的视频问答方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833877A (zh) * 2010-03-24 2010-09-15 杭州全动科技有限公司 一种学前儿童的启迪教育方法
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
US20160132789A1 (en) * 2013-09-30 2016-05-12 Manyworlds, Inc. Streams of Attention Method, System, and Apparatus
CN105701254A (zh) * 2016-03-09 2016-06-22 北京搜狗科技发展有限公司 一种信息处理方法和装置、一种用于信息处理的装置
CN106126596A (zh) * 2016-06-20 2016-11-16 中国科学院自动化研究所 一种基于层次化记忆网络的问答方法
US20170024645A1 (en) * 2015-06-01 2017-01-26 Salesforce.Com, Inc. Dynamic Memory Network
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833877A (zh) * 2010-03-24 2010-09-15 杭州全动科技有限公司 一种学前儿童的启迪教育方法
US20160132789A1 (en) * 2013-09-30 2016-05-12 Manyworlds, Inc. Streams of Attention Method, System, and Apparatus
US20170024645A1 (en) * 2015-06-01 2017-01-26 Salesforce.Com, Inc. Dynamic Memory Network
CN105279495A (zh) * 2015-10-23 2016-01-27 天津大学 一种基于深度学习和文本总结的视频描述方法
CN105701254A (zh) * 2016-03-09 2016-06-22 北京搜狗科技发展有限公司 一种信息处理方法和装置、一种用于信息处理的装置
CN106126596A (zh) * 2016-06-20 2016-11-16 中国科学院自动化研究所 一种基于层次化记忆网络的问答方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHAO GUO: "Attention-based LSTM with semantic consistency for videos captioning", 《ACM ON MULTIMEDIA CONFERENCE》 *
黄攀: "基于深度学习的自然场景文字识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549850A (zh) * 2018-03-27 2018-09-18 联想(北京)有限公司 一种图像识别方法及电子设备
CN108549850B (zh) * 2018-03-27 2021-07-16 联想(北京)有限公司 一种图像识别方法及电子设备
CN108334910B (zh) * 2018-03-30 2020-11-03 国信优易数据股份有限公司 一种事件检测模型训练方法以及事件检测方法
CN108334910A (zh) * 2018-03-30 2018-07-27 国信优易数据有限公司 一种事件检测模型训练方法以及事件检测方法
CN108711847A (zh) * 2018-05-07 2018-10-26 国网山东省电力公司电力科学研究院 一种基于编码解码长短期记忆网络的短期风电功率预测方法
CN108711847B (zh) * 2018-05-07 2019-06-04 国网山东省电力公司电力科学研究院 一种基于编码解码长短期记忆网络的短期风电功率预测方法
CN108959467A (zh) * 2018-06-20 2018-12-07 华东师范大学 一种基于强化学习的问句和答案句相关度的计算方法
CN108959467B (zh) * 2018-06-20 2021-10-15 华东师范大学 一种基于强化学习的问句和答案句相关度的计算方法
CN109242140A (zh) * 2018-07-24 2019-01-18 浙江工业大学 一种基于LSTM_Attention网络的交通流预测方法
CN109145763B (zh) * 2018-07-27 2021-07-13 天津大学 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN109145763A (zh) * 2018-07-27 2019-01-04 天津大学 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN109472201A (zh) * 2018-09-29 2019-03-15 天津卡达克数据有限公司 一种基于场景、动作和文本的视频问答方法
CN109408680A (zh) * 2018-10-08 2019-03-01 腾讯科技(深圳)有限公司 自动问答方法、装置、设备和计算机可读存储介质
CN112106043A (zh) * 2018-12-07 2020-12-18 首尔大学校产学协力团 问题应答装置及方法
CN111464881A (zh) * 2019-01-18 2020-07-28 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN109840506A (zh) * 2019-02-13 2019-06-04 杭州一知智能科技有限公司 利用结合关系互动的视频转换器解决视频问答任务的方法
CN109840506B (zh) * 2019-02-13 2020-11-20 杭州一知智能科技有限公司 利用结合关系互动的视频转换器解决视频问答任务的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109902164B (zh) * 2019-03-06 2020-12-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN111598118A (zh) * 2019-12-10 2020-08-28 中山大学 一种视觉问答任务实现方法及系统
CN111598118B (zh) * 2019-12-10 2023-07-07 中山大学 一种视觉问答任务实现方法及系统
CN111553467A (zh) * 2020-04-30 2020-08-18 陈永聪 一种实现通用人工智能的方法
CN112307332A (zh) * 2020-10-16 2021-02-02 四川大学 基于用户画像聚类的协同过滤推荐方法、系统及存储介质
CN112905819A (zh) * 2021-01-06 2021-06-04 中国石油大学(华东) 基于复合注意力的原始特征注入网络的视觉问答方法
CN112905819B (zh) * 2021-01-06 2022-09-23 中国石油大学(华东) 基于复合注意力的原始特征注入网络的视觉问答方法
CN112860847B (zh) * 2021-01-19 2022-08-19 中国科学院自动化研究所 视频问答的交互方法及系统
CN112860847A (zh) * 2021-01-19 2021-05-28 中国科学院自动化研究所 视频问答的交互方法及系统
CN113807222A (zh) * 2021-09-07 2021-12-17 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN113807222B (zh) * 2021-09-07 2023-06-27 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN115599954A (zh) * 2022-12-12 2023-01-13 广东工业大学(Cn) 一种基于场景图推理的视频问答方法
CN115599954B (zh) * 2022-12-12 2023-03-31 广东工业大学 一种基于场景图推理的视频问答方法

Also Published As

Publication number Publication date
CN107818306B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN107818306A (zh) 一种基于注意力模型的视频问答方法
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN109766427B (zh) 一种基于协同注意力的虚拟学习环境智能问答方法
CN111753827A (zh) 基于语义强化编码器解码器框架的场景文字识别方法及系统
CN111860128B (zh) 一种基于多流快慢图卷积网络的人体骨骼行为识别方法
CN108388900A (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN113920581A (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
Wu et al. Modeling visual and word-conditional semantic attention for image captioning
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及系统
CN111813894A (zh) 一种基于深度学习的自然语言情感识别方法
Lu et al. Improved Blending Attention Mechanism in Visual Question Answering.
Mazaheri et al. Video fill in the blank using lr/rl lstms with spatial-temporal attentions
CN113837212A (zh) 一种基于多模态双向导向注意力的视觉问答方法
He et al. An optimal 3D convolutional neural network based lipreading method
CN111818397B (zh) 一种基于长短时记忆网络变体的视频描述生成方法
CN115170898A (zh) 一种高效的遥感图像自监督学习训练方法
CN112818741A (zh) 一种用于智能面试的行为礼仪维度评价方法及装置
CN113239678A (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
Mishra et al. Environment descriptor for the visually impaired

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200807

Termination date: 20201031