CN112084319B - 一种基于动作的关系网络视频问答系统及方法 - Google Patents

一种基于动作的关系网络视频问答系统及方法 Download PDF

Info

Publication number
CN112084319B
CN112084319B CN202011049187.6A CN202011049187A CN112084319B CN 112084319 B CN112084319 B CN 112084319B CN 202011049187 A CN202011049187 A CN 202011049187A CN 112084319 B CN112084319 B CN 112084319B
Authority
CN
China
Prior art keywords
video
network
representing
feature
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011049187.6A
Other languages
English (en)
Other versions
CN112084319A (zh
Inventor
邵杰
张骥鹏
高联丽
徐行
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202011049187.6A priority Critical patent/CN112084319B/zh
Publication of CN112084319A publication Critical patent/CN112084319A/zh
Application granted granted Critical
Publication of CN112084319B publication Critical patent/CN112084319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于动作的关系网络视频问答系统及方法,属于计算语言学和计算机视觉领域,包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块。本发明使用时序动作检测网络的结果辅助视频特征的编码,强调了视频的动作因素,同时通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积,将动作概率分布与初始的视频特征被一起输入到神经网络的编码器中,以学习视频特征使最终的视频特征能够包含动作信息,最后,将输出的视频特征与问题特征输入一个多头的关系转换器网络中,通过此网络输出最后的结果,本发明通过增强问题中的动作特征来提高任务性能,并辅以关系转换器网络可以取得更好的解题效果。

Description

一种基于动作的关系网络视频问答系统及方法
技术领域
本发明属于计算语言学和计算机视觉领域,尤其涉及一种基于动作的关系网络视频问答系统及方法。
背景技术
视频问答系统即根据给定视频片段自动回答相关问题,近年来一直吸引着研究者的关注,是一项重要的多模态理解任务。典型的视频问答系统是给出一个问题的描述并给出一个对应的问题片段,较早的研究尝试通过跨模态检索和动作识别来解决问题。
近年来开始出现了基于深度学习的问答系统,这些深度学习方法能够自动获取特征学习信息,同时它们在规模较大且复杂的数据集上也达到了很高的性能。该类方法中有很多都是探究的多模态信息融合和注意力机制的使用,从那时起,许多研究工作都投身于了改进基于深度学习的问题系统。比较有代表性的改进是利用层次化和多层级的注意力机制和图神经网络建模多种信息之间的关联,它们着眼于改进模型的表征能力和特征提取能力。另一方面,改进视频表征的获取方式也是实现更好的解决方案表达方式的潜在方法,具体来说,现有的视频问答系统无法有效地获取视频中的动作信息,而且无法很好地利用相关信息,从而导致获取的特征无法准确地表达视频中的关键信息,最终导致生成的答案不准确。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于动作的关系网络视频问答系统及方法,解决了现有的深度学习模型求解答案正确率低的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于动作的关系网络视频问答系统,包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块;
所述编码模块,用于通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;
所述问题特征模块,用于利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo
所述动作检测模块,用于利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V;
所述关系转换网络模块,用于根据所述中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将所述视频特征V和关系特征Rz聚合为关系视频特征ratt
所述解码模块,用于融合中间视频特征V、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。
本发明的有益效果是:本发明首先使用时序动作检测网络的结果辅助视频特征的编码,强调了视频的动作因素,同时,由于缺乏精准的动作区间标注,本发明没有直接使用检测出来的动作区间,而是通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积,时序动作检测网络得到的动作概率分布与初始的视频特征被一起输入到基于循环神经网络的编码器中,以学习视频特征,使最终的视频特征能够包含动作信息,最后,将输出的视频特征与问题特征输入一个多头的关系转换器网络中,通过此网络输出最后的结果。本发明通过增强问题中的动作特征来提高任务性能,并辅以关系转换器网络,可以取得更好的解题效果。
基于上述系统本发明还提供了一种基于动作的关系网络视频问答方法,包括以下步骤:
S1、通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;
S2、利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo
S3、利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V;
S4、根据所述中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将所述视频特征V和关系特征Rz聚合为关系视频特征ratt
S5、融合中间视频特征V、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。
本发明的有益效果是:本发明首先使用时序动作检测网络的结果辅助视频特征的编码,强调了视频的动作因素,同时,由于缺乏精准的动作区间标注,本发明没有直接使用检测出来的动作区间,而是通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积,时序动作检测网络得到的动作概率分布与初始的视频特征被一起输入到基于循环神经网络的编码器中,以学习视频特征,使最终的视频特征能够包含动作信息,最后,将输出的视频特征与问题特征输入一个多头的关系转换器网络中,通过此网络输出最后的结果。本发明通过增强问题中的动作特征来提高任务性能,并辅以关系转换器网络,可以取得更好的解题效果。
进一步地,所述步骤S1包括以下步骤:
S101、根据视频文件本身的每秒传输帧数,从视频中提取T帧图像;
S102、根据提取的T帧图像,利用残差网络获取帧的静态特征集合的隐状态表征VF={f1,f2,...,fr},并将所述静态特征集合的隐状态表征VF作为视频对应的静态特征实值向量,其中,fr表示每一帧视频对应的残差特征;
S103、根据提取的T帧图像,利用光流卷积网络获取帧的动态特征集合的隐状态表征VS={s1,s2,...,sr},并将所述动态特征集合的隐状态表征VS作为视频对应的动态特征实值向量,其中,sr表示每一帧视频对应的光流特征;
S104、融合所述静态特征实值向量和动态特征实值向量,得到具有固定维度的实值向量VE。
上述进一步方案的有益效果是:残差网络和光流卷及网络分别强调了视频的动态和静态特征,这样有利于模型对视频更全面的理解。
再进一步地,所述步骤S2包括以下步骤:
S201、根据问题文本,将输入的问题以单词序列的方式进行处理;
S202、利用词嵌入方法将单词序列转换成固定维度的实值向量集合Q={q1,q2,..,qN},其中,qN表示最后一个单词对应的特征向量,N表示问题序列的长度;
S203、将所述实值向量集合Q输入至循环神经网络,得到问题特征Qo
再进一步地,所述步骤S3包括以下步骤:
S301、利用时序动作检测网络对视频序列进行处理,得到视频中的多种动作概率分布{(tfs1,tfs2,...,tfe1),...,(tfsM,...,tfeM)},其中,tfsM表示检测到的动作的开始时间帧,tfeM表示检测到的动作的结束时间帧,M表示前M个动作概率分布;
S302、将所述多种动作概率分布转换成对应的掩膜矩阵,并将掩膜矩阵与实值向量VE进行融合处理,得到中间视频特征V。
上述进一步方案的有益效果是:本发明首先使用动作检测网络提供的信息辅助编码输入的视频特征,将视频在时间维度的属性有效地嵌入视频特征中,新生成的视频特征包含检测到的以动作为中心的信息,这些动作信息对正确回答问题往往具有重要的意义,本发明通过丰富视频特征中的动作信息来提高任务性能,可以取得更好的效果。
再进一步地,所述步骤S302包括以下步骤:
S3021、将所述多种动作概率分布转换成对应的初始掩膜矩阵,得到实值向量VE的子集VE1
S3022、定义一个与实值向量VE大小相同的零矩阵Mask1,并将零矩阵Mask1和子集VE1对应的列赋值为1,得到最终的掩膜矩阵;
S3033、通过按位相乘将所述最终的掩膜矩阵和实值向量VE进行融合处理,并同时计算多个动作区间对应的掩摸矩阵;
S3034、将多个动作区间对应的掩摸矩阵相加,得到视频特征BSNf
S3035、根据所述视频特征BSNf与实值向量VE计算得到中间视频特征V;所述中间视频特征V的表达式如下:
V=VE+BSNf
Figure BDA0002709012410000051
BSNfj=VE⊙Maskj
其中,VE表示实值向量,BSNf表示视频特征,BSNfj表示多个动作区间对应的掩摸矩阵,⊙表示按位相乘,M表示前M个动作概率分布,j表示被检测到的第j个动作,且1≤j≤M。
上述进一步方案的有益效果是:本发明通过将多种动作概率分布与实值向量VE进行融合,可以在不改变特征形状的前提下将动作信息嵌入视频表征当中。
再进一步地,所述步骤S4包括以下步骤:
S401、利用全连接网络将所述中间视频特征V转换为视频特征VP;
S402、利用关系网络对所述视频特征VP以及问题特征Qo进行处理,得到关系特征ri;所述关系特征ri的表达式如下:
ri=Wr([vpi,vpi+1,...,vpi+F,Qo])+br
其中,Wr表示待训练的参数矩阵,vpi+F表示从第i帧往前数F帧得到的帧对应的特征,br表示待训练的偏置参数;
S403、利用关系转换网络将所述视频特征VP以及问题特征Qo进行融合处理,并根据融合结果与所述关系特征ri计算得到关系特征Rz;所述关系特征Rz的表达式如下:
Figure BDA0002709012410000061
Rk=Relation-Modulek(VP,Qo)
其中,Relation-Modulek(·)表示第k个关系子网络的计算过程,Rk表示第k个关系子网络的输出,K表示关系子网络的总体数量,||表示将K个关系子网络的输出进行拼接;
S404、根据所述关系特征Rz利用前馈网络和层正则化计算得到关系特征
Figure BDA0002709012410000062
S405、利用注意力机制将所述关系特征
Figure BDA0002709012410000063
聚合为关系视频特征ratt;所述关系视频特征ratt的表达式如下:
Figure BDA0002709012410000064
其中,Attentionr(·)表示注意力机制。
上述进一步方案的有益效果是:本发明首次提出了使用一个基于关系转换网络的视频模型,旨在更好地利用视频帧中分布的时间维度的属性及其相互作用,基于关系网络加入的对帧间关系特征探求的先验,加入多头结构和转换器网络的一些特征,让系统具有了更强的视频特征提取能力。
再进一步地,所述步骤S401中视频特征VP的表达式如下:
VP={vp1,vp2,...,vpT}
vpi=Wp×vi+bp
1≤i≤T
其中,vpT表示最后一帧图像对应的视频特征,Wp表示待训练的参数矩阵,vi表示第i帧的中间视频特征,bp表示待训练的偏置参数,T表示视频总帧数,i表示视频的第i帧,vpi表示视频的第i帧对应的特征。
再进一步地,所述步骤S404中所述关系特征
Figure BDA0002709012410000071
的表达式如下:
Figure BDA0002709012410000072
Figure BDA0002709012410000073
Figure BDA0002709012410000074
其中,
Figure BDA0002709012410000075
表示层正则化之后的关系特征,layerNorm表示层正则化,FFN(·)表示前馈网络的计算过程,
Figure BDA0002709012410000076
表示对
Figure BDA0002709012410000077
进行前馈网络的计算,bf1表示前馈网络的第一层的偏置参数,Wf1表示前馈网络的第一层的参数矩阵,Wf2表示前馈网络的第二层的参数矩阵,bf2表示前馈网络的第二层的偏置参数。
上述进一步方案的有益效果是:本发明能够利用多个关系网络的综合,充分高效地地建模帧与帧之间的复杂关联。
再进一步地,所述步骤S5包括以下步骤:
S501、利用注意力机制将中间视频特征V聚合为综合的视频表征vatt
vatt=Attentionv(V,Qo)
其中,Attentionv(·)表示注意力机制,Qo表示问题特征;
S502、将所述综合的视频表征vatt、关系视频特征ratt以及问题特征Qo利用按位相加的方式进行融合,得到最终的表征J,并将最终的表征J输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。
上述进一步方案的有益效果是:将所述综合的视频表征vatt、关系视频特征ratt以及问题特征Qo进行融合,增加了关系信息的融合特征可以辅助更好的确定问题的回答。
附图说明
图1为本发明的系统结构示意图。
图2为本发明的方法流程示意图。
图3为本实施例中的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1
如图1所示,一种基于动作的关系网络视频问答系统,包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块;编码模块,用于通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;问题特征模块,用于利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo;动作检测模块,用于利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V;关系转换网络模块,用于根据中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将视频特征V和关系特征Rz聚合为关系视频特征ratt;解码模块,用于融合实值向量VE、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。
本实施例中,本发明首先通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE,再利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo,然后,本发明首先使用时序动作检测网络的结果辅助视频特征的编码,强调了视频的动作因素,同时,由于缺乏精准的动作区间标注,本发明没有直接使用检测出来的动作区间,而是通过检测结果得到的动作概率分布避免错误的动作检测带来的误差累积,时序动作检测网络得到的动作概率分布与初始的视频特征被一起输入到基于循环神经网络的编码器中,以学习视频特征,使最终的视频特征能够包含动作信息,最后,将输出的视频特征与问题特征输入一个多头的关系转换器网络中,通过此网络输出最后的结果。本发明通过增强问题中的动作特征来提高任务性能,并辅以关系转换器网络,可以取得更好的解题效果。
实施例2
如图2和图3所示,本发明还提供了一种基于动作的关系网络视频问答方法,其实现方法如下:
S1、通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE,其实现方法如下:
S101、根据视频文件本身的每秒传输帧数,从视频中提取T帧图像;
S102、根据提取的T帧图像,利用残差网络获取帧的静态特征集合的隐状态表征VF={f1,f2,...,fr},并将静态特征集合的隐状态表征VF作为视频对应的静态特征实值向量,其中,fr表示每一帧视频对应的残差特征;
S103、根据提取的T帧图像,利用光流卷积网络获取帧的动态特征集合的隐状态表征VS={s1,s2,...,sr},并将动态特征集合的隐状态表征VS作为视频对应的动态特征实值向量,其中,sr表示每一帧视频对应的光流特征;
S104、融合静态特征实值向量和动态特征实值向量,得到具有固定维度的实值向量VE;
S2、利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo;其实现方法如下:
S201、根据问题文本,将输入的问题以单词序列的方式进行处理;
S202、利用词嵌入方法将单词序列转换成固定维度的实值向量集合Q={q1,q2,..,qN},其中,qN表示最后一个单词对应的特征向量,N表示问题序列的长度;
S203、将实值向量集合Q输入至循环神经网络,得到问题特征Qo
S3、利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V;其实现方法如下:
S301、利用时序动作检测网络对视频序列进行处理,得到视频中的多种动作概率分布{(tfs1,tfs2,...,tfe1),...,(tfsM,...,tfeM)},其中,tfsM表示检测到的动作的开始时间帧,tfeM表示检测到的动作的结束时间帧,M表示前M个动作概率分布。
本实施例中,通过一个动作检测网络处理视频序列,获得视频上动作概率的分布;更具体地,由于动作检测网络会产生对应于多个动作的概率分布,本发明选取其中的前M个分布,即取出置信度前M的动作区间。同时将检测结果中的时间转换成对应的帧,就能得到{(tfs1,tfs2,...,tfe1),...,(tfsM,...,tfeM)},这里就指示了哪一些帧更有可能存在动作。
S302、将多种动作概率分布转换成对应的掩膜矩阵,并将掩膜矩阵与实值向量VE进行融合处理,得到中间视频特征V;其实现方法如下:
S3021、将多种动作概率分布转换成对应的初始掩膜矩阵,得到实值向量VE的子集VE1
S3022、定义一个与实值向量VE大小相同的零矩阵Mask1,并将零矩阵Mask1和子集VE1对应的列赋值为1,得到最终的掩膜矩阵;
S3033、通过按位相乘将所述最终的掩膜矩阵和实值向量VE进行融合处理,并同时计算多个动作区间对应的掩摸矩阵;
S3034、将多个动作区间对应的掩摸矩阵相加,得到视频特征BSNf
S3035、根据视频特征BSNf与实值向量VE计算得到中间视频特征V;中间视频特征V的表达式如下:
V=VE+BSNf
Figure BDA0002709012410000111
BSNfj=VE⊙Maskj
其中,VE表示实值向量,BSNf表示视频特征,BSNfj表示多个动作区间对应的掩摸矩阵,⊙表示按位相乘,即矩阵之间执行按位相乘的计算然后得到一个新的矩阵,M表示前M个动作概率分布,j表示被检测到的第j个动作,且1≤j≤M。
本实施例中,根据得到的动作区间{(tfs1,tfs2,...,tfe1),...,(tfsM,...,tfeM)},系统先将其转换为对应的掩膜矩阵,然后将其与原始的视频特征VE融合起来,即可完成动作编码的操作。首先将以上的动作区间转换为掩膜矩阵,以(fts1,tfe1)为例,以(tfs1,tfe1)为界,其中,fts1表示第一个动作的起始时间,tfe1表示第一个动作的停止时间,系统可以获得视频特征组VE的一个子集VE1,它只包含了处于对应检测动作区间当中的帧的特征。然后先定义一个和VE大小相同的零矩阵Mask1,然后把Mask1中对VE1对应的列都赋值为1,这样就正式的得到了对应的掩膜Mask1。接下来通过按位相乘将掩膜矩阵和视频特征VE融合在一起,同时计算多个动作区间对应的掩膜矩阵,最后将它们加起来,即可得到动作编码后的视频特征BSNf
S4、根据中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将视频特征V和关系特征Rz聚合为关系视频特征ratt;其实现方法如下:
S401、利用全连接网络将中间视频特征V转换为视频特征VP;视频特征VP的表达式如下:
VP={vp1,...,vpT}
vpi=Wp×vi+bp
1≤i≤T
其中,vpT表示最后一帧图像对应的视频特征,Wp表示待训练的参数矩阵,vi表示第i帧的中间视频特征,bp表示待训练的偏置参数,T表示视频总帧数,i表示视频的第i帧,vpi表示视频的第i帧对应的特征;
S402、利用关系网络对视频特征VP以及问题特征Qo进行处理,得到关系特征ri;关系特征ri的表达式如下:
ri=Wr([vpi,vpi+1,...,vpi+F,Qo])+br
其中,Wr表示待训练的参数矩阵,vpi+F表示从第i帧往前数F帧得到的帧对应的特征,br表示待训练的偏置参数,本发明中将这里的F设置为1。
本实施例中,通过一个关系网络模块处理视频特征VP,给定帧级别的视频特征VP={vp1,vp2,...,vpT}和问题特征Qo,ri表示第i个关系特征,对于包含了T帧视频特征的集合,系统将会得到T-(F-1)个对应的关系特征R={r1,r2,...,rT-(F-1)},F即关系网络模块所需要考虑的帧的数量,本文中设置为1。这个步骤的处理过程在后面记为Relation-Modulek
S403、利用关系转换网络将视频特征VP以及问题特征Qo进行融合处理,并根据融合结果与关系特征ri计算得到关系特征Rz;关系特征Rz的表达式如下:
Figure BDA0002709012410000131
Rk=Relation-Modulek(VP,Qo)
其中,Relation-Modulek(·)表示第k个关系子网络的计算过程,其与和S402中计算方式相同,Rk表示第k个关系子网络的输出,K表示关系子网络的总体数量,||表示将K个关系子网络的输出进行拼接;
S404、根据关系特征Rk利用前馈网络和层正则化计算得到关系特征
Figure BDA0002709012410000132
关系特征
Figure BDA0002709012410000133
的表达式如下:
Figure BDA0002709012410000134
Figure BDA0002709012410000135
Figure BDA0002709012410000136
其中,
Figure BDA0002709012410000137
表示层正则化之后的关系特征,layerNorm表示层正则化,FFN(·)表示前馈网络的计算过程,
Figure BDA0002709012410000138
表示对
Figure BDA0002709012410000139
进行前馈网络的计算,bf1表示前馈网络的第一层的偏置参数,Wf1表示前馈网络的第一层的参数矩阵,Wf2表示前馈网络的第二层的参数矩阵,bf2表示前馈网络的第二层的偏置参数。
本实施例中,本系统新提出了一种关系转换网络,也以帧级别的视频特征VP={vp1,vp2,...,vpT}和问题特征Qo为输入,首先通过一个多头关系网络求视频特征,这里引入了一个K头的结构,每一个头都采用了关系网络,计算方法和上面的S402相同。对于每一个关系网络模块
Figure BDA0002709012410000141
系统会并行地执行运算然后将运算结果拼接在一起,接下来通过一个前馈网络FFN和层正则化LayerNorm计算得到最后的关系特征
Figure BDA0002709012410000142
S405、利用注意力机制将关系特征
Figure BDA0002709012410000143
聚合为关系视频特征ratt;关系视频特征ratt的表达式如下:
Figure BDA0002709012410000144
其中,Attentionr(·)表示注意力机制;
S5、融合中间视频特征V、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答,其实现方法如下:
S501、利用注意力机制将中间视频特征V聚合为综合的视频表征vatt
vatt=Attentionv(V,Qo)
其中,Attentionv(·)表示注意力机制,Qo表示问题特征;
S502、将综合的视频表征vatt、关系视频特征ratt以及问题特征Qo利用按位相加的方式进行融合,得到最终的表征J,并将最终的表征J输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。
以下对本发明作进一步地说明。
本实施例中,利用两个常用的数据集:其中TGIF-QA(针对时间空间联合推理的视频问答数据集)有165,165个问题和71,741个视频片段,ActivityNet-QA(针对动作的视频问答数据集)有58,000个问题和58,00个对应的视频片段。对于TGIF-QA数据集,整个数据被划分为了4类子问题Action,Transition,Frame和Count(动作,状态转换,单帧静态问题,计数),其中Action,Transition,Frame直接使用准确率进行评估,Count由于结果是数值,采用了均方误差(MSE)进行评估。对于ActivityNet-QA数据集,通过准确率和标准正确答案的相似度(WUPS)进行评估。如表1所示,表1为本方法与现有方法的效果对比,由表1(Action,Transition,Frame中的数据代表模型在测试集上的准确率,数值越大越好;Count中的均方误差是模型在测试集上生成结果和标准答案之间的差别,数值越小越好)可以看出,本方法相比现有的ST-TP方法(时序推理模型)、Co-memory方法(联合记忆网络)、PSAC方法(位置相关的时间空间推力网络)和HGA方法(异质图网络对齐模型)的效果都好。
表1
Action Transition Frame Count
ST-TP 62.9 69.4 49.5 4.32
Co-memory 68.2 74.3 51.5 4.10
PSAC 70.4 76.9 55.7 4.27
HGA 75.4 81.0 55.1 4.09
本方法 75.81 81.61 57.68 4/08
如表2所示,从表2(Acc中的数据代表模型在测试集上的准确率,数值越大越好;WUPS是模型在测试集生成结果上和标准答案之间的差别,数值越大越好)可以看出,本方法相比现有的E-VQA(静态问答模型)方法、E-MN(记忆网络)方法、E-SA(软注意力网络)方法、VQA-HMAL(条件对抗网络)方法和CAN(组合注意力网络)方法的效果都好。
表2
Figure BDA0002709012410000151
Figure BDA0002709012410000161
综上所述,本发明引入了两种新颖的机制,基于动作的编码机制和关系转换器,以帮助改进视频问答系统,除了在静态部分中利用帧级别的特征之外,本发明还更加注重时间维度的动作属性,并将其嵌入到视频特征当中。此外,本发明没有使用循环神经网络来提取视频表征向量,而是利用一种新的关系转换网络抓取视频特征,实验在两个大型视频问答数据上进行,分别为TGIF-QA和ActivityNet-QA,结果表明,本发明在原有方法的基础上有了显着改善。

Claims (8)

1.一种基于动作的关系网络视频问答系统,其特征在于,包括编码模块、问题特征模块、动作检测模块、关系转换网络模块以及解码模块;
所述编码模块,用于通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;
所述问题特征模块,用于利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo
所述动作检测模块,用于利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V,其实现方法如下:
A1、利用时序动作检测网络对视频序列进行处理,得到视频中的多种动作概率分布{(tfs1,tfs2,...,tfe1),...,(tfsM,...,tfeM)},其中,tfsM表示检测到的动作的开始时间帧,tfeM表示检测到的动作的结束时间帧,M表示前M个动作概率分布;
A2、将所述多种动作概率分布转换成对应的掩膜矩阵,并将掩膜矩阵与实值向量VE进行融合处理,得到中间视频特征V;
所述步骤A2包括以下步骤:
A21、将所述多种动作概率分布转换成对应的初始掩膜矩阵,得到实值向量VE的子集VE1
A22、定义一个与实值向量VE大小相同的零矩阵Mask1,并将零矩阵Mask1和子集VE1对应的列赋值为1,得到最终的掩膜矩阵;
A23、通过按位相乘将所述最终的掩膜矩阵和实值向量VE进行融合处理,并同时计算多个动作区间对应的掩摸矩阵;
A24、将多个动作区间对应的掩摸矩阵相加,得到视频特征BSNf
A25、根据所述视频特征BSNf与实值向量VE计算得到中间视频特征V;所述中间视频特征V的表达式如下:
V=VE+BSNf
Figure FDA0002906385390000021
BSNfj=VE⊙Maskj
其中,VE表示实值向量,BSNf表示视频特征,BSNfj表示多个动作区间对应的掩摸矩阵,⊙表示按位相乘,M表示前M个动作概率分布,j表示被检测到的第j个动作,且1≤j≤M;
所述关系转换网络模块,用于根据所述中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将所述视频特征V和关系特征Rz聚合为关系视频特征ratt
所述解码模块,用于融合中间视频特征V、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。
2.一种基于动作的关系网络视频问答方法,其特征在于,包括以下步骤:
S1、通过三维卷积网络和光流网络将所有视频的帧表示为一组具有固定维度的实值向量VE;
S2、利用基于共现的词嵌入方法将问题文本中的词表示为问题特征Qo
S3、利用时序动作检测网络获取视频中的多种动作概率分布,并将多种动作概率分布与实值向量VE进行融合,得到中间视频特征V;
所述步骤S3包括以下步骤:
S301、利用时序动作检测网络对视频序列进行处理,得到视频中的多种动作概率分布{(tfs1,tfs2,...,tfe1),...,(tfsM,...,tfeM)},其中,tfsM表示检测到的动作的开始时间帧,tfeM表示检测到的动作的结束时间帧,M表示前M个动作概率分布;
S302、将所述多种动作概率分布转换成对应的掩膜矩阵,并将掩膜矩阵与实值向量VE进行融合处理,得到中间视频特征V;
所述步骤S302包括以下步骤:
S3021、将所述多种动作概率分布转换成对应的初始掩膜矩阵,得到实值向量VE的子集VE1
S3022、定义一个与实值向量VE大小相同的零矩阵Mask1,并将零矩阵Mask1和子集VE1对应的列赋值为1,得到最终的掩膜矩阵;
S3033、通过按位相乘将所述最终的掩膜矩阵和实值向量VE进行融合处理,并同时计算多个动作区间对应的掩摸矩阵;
S3034、将多个动作区间对应的掩摸矩阵相加,得到视频特征BSNf
S3035、根据所述视频特征BSNf与实值向量VE计算得到中间视频特征V;所述中间视频特征V的表达式如下:
V=VE+BSNf
Figure FDA0002906385390000031
BSNfi=VE⊙Maskj
其中,VE表示实值向量,BSNf表示视频特征,BSNfj表示多个动作区间对应的掩摸矩阵,⊙表示按位相乘,M表示前M个动作概率分布,j表示被检测到的第j个动作,且1≤j≤M;
S4、根据所述中间视频特征V和问题特征Qo,利用关系转换网络得到视频动作间的关系特征Rz,并通过注意力机制将所述视频特征V和关系特征Rz聚合为关系视频特征ratt
S5、融合中间视频特征V、问题特征Qo以及关系视频特征ratt,并将融合结果输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。
3.根据权利要求2所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S1包括以下步骤:
S101、根据视频文件本身的每秒传输帧数,从视频中提取T帧图像;
S102、根据提取的T帧图像,利用残差网络获取帧的静态特征集合的隐状态表征VF={f1,f2,...,fr},并将所述静态特征集合的隐状态表征VF作为视频对应的静态特征实值向量,其中,fr表示每一帧视频对应的残差特征;
S103、根据提取的T帧图像,利用光流卷积网络获取帧的动态特征集合的隐状态表征VS={s1,s2,...,sr},并将所述动态特征集合的隐状态表征VS作为视频对应的动态特征实值向量,其中,sr表示每一帧视频对应的光流特征;
S104、融合所述静态特征实值向量和动态特征实值向量,得到具有固定维度的实值向量VE。
4.根据权利要求2所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S2包括以下步骤:
S201、根据问题文本,将输入的问题以单词序列的方式进行处理;
S202、利用词嵌入方法将单词序列转换成固定维度的实值向量集合Q={q1,q2,..,qN},其中,qN表示最后一个单词对应的特征向量,N表示问题序列的长度;
S203、将所述实值向量集合Q输入至循环神经网络,得到问题特征Qo
5.根据权利要求2所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S4包括以下步骤:
S401、利用全连接网络将所述中间视频特征V转换为视频特征VP;
S402、利用关系网络对所述视频特征VP以及问题特征Qo进行处理,得到关系特征ri;所述关系特征ri的表达式如下:
ri=Wr([vpi,vpi+1,...,vpi+F,Qo])+br
其中,Wr表示待训练的参数矩阵,vpi+F表示从第i帧往前数F帧得到的帧对应的特征,br表示待训练的偏置参数;
S403、利用关系转换网络将所述视频特征VP以及问题特征Qo进行融合处理,并根据融合结果与所述关系特征ri计算得到关系特征Rz;所述关系特征Rz的表达式如下:
Figure FDA0002906385390000051
Rk=Relation-Modulek(VP,Qo)
其中,Relation-Modulek(·)表示第k个关系子网络的计算过程,Rk表示第k个关系子网络的输出,K表示关系子网络的总体数量,||表示将K个关系子网络的输出进行拼接;
S404、根据所述关系特征Rz利用前馈网络和层正则化计算得到关系特征
Figure FDA0002906385390000052
S405、利用注意力机制将所述关系特征
Figure FDA0002906385390000053
聚合为关系视频特征ratt;所述关系视频特征ratt的表达式如下:
Figure FDA0002906385390000054
其中,Attentionr(·)表示注意力机制。
6.根据权利要求5所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S401中视频特征VP的表达式如下:
VP={vp1,vp2,...,vpT}
vpi=Wp×vi+bp
1≤i≤T
其中,vpT表示最后一帧图像对应的视频特征,Wp表示待训练的参数矩阵,vi表示第i帧的中间视频特征,bp表示待训练的偏置参数,T表示视频总帧数,i表示视频的第i帧,vpi表示视频的第i帧对应的特征。
7.根据权利要求5所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S404中所述关系特征
Figure FDA0002906385390000061
的表达式如下:
Figure FDA0002906385390000062
Figure FDA0002906385390000063
Figure FDA0002906385390000064
其中,
Figure FDA0002906385390000065
表示层正则化之后的关系特征,layerNorm表示层正则化,FFN(·)表示前馈网络的计算过程,
Figure FDA0002906385390000066
表示对
Figure FDA0002906385390000067
进行前馈网络的计算,bf1表示前馈网络的第一层的偏置参数,Wf1表示前馈网络的第一层的参数矩阵,Wf2表示前馈网络的第二层的参数矩阵,bf2表示前馈网络的第二层的偏置参数。
8.根据权利要求2所述的基于动作的关系网络视频问答方法,其特征在于,所述步骤S5包括以下步骤:
S501、利用注意力机制将中间视频特征V聚合为综合的视频表征vatt
vatt=Attentionv(V,Qo)
其中,Attentionv(·)表示注意力机制,Qo表示问题特征;
S502、将所述综合的视频表征vatt、关系视频特征ratt以及问题特征Qo利用按位相加的方式进行融合,得到最终的表征J,并将最终的表征J输入至视频问题的解码器中生成对应类型的问题答案,完成基于动作的关系网络视频问答。
CN202011049187.6A 2020-09-29 2020-09-29 一种基于动作的关系网络视频问答系统及方法 Active CN112084319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011049187.6A CN112084319B (zh) 2020-09-29 2020-09-29 一种基于动作的关系网络视频问答系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011049187.6A CN112084319B (zh) 2020-09-29 2020-09-29 一种基于动作的关系网络视频问答系统及方法

Publications (2)

Publication Number Publication Date
CN112084319A CN112084319A (zh) 2020-12-15
CN112084319B true CN112084319B (zh) 2021-03-16

Family

ID=73729964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011049187.6A Active CN112084319B (zh) 2020-09-29 2020-09-29 一种基于动作的关系网络视频问答系统及方法

Country Status (1)

Country Link
CN (1) CN112084319B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN115312044B (zh) * 2022-08-05 2024-06-14 清华大学 用于音视频问答的层次化声音-视觉特征融合方法及产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149756A (zh) * 2007-11-09 2008-03-26 清华大学 在大规模社会网络中基于路径评分的个人关系发现方法
CN110097000A (zh) * 2019-04-29 2019-08-06 东南大学 基于局部特征聚合描述符和时序关系网络的视频行为识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9123254B2 (en) * 2012-06-07 2015-09-01 Xerox Corporation Method and system for managing surveys
CN109582798A (zh) * 2017-09-29 2019-04-05 阿里巴巴集团控股有限公司 自动问答方法、系统及设备
CN109614613B (zh) * 2018-11-30 2020-07-31 北京市商汤科技开发有限公司 图像的描述语句定位方法及装置、电子设备和存储介质
CN111079532B (zh) * 2019-11-13 2021-07-13 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149756A (zh) * 2007-11-09 2008-03-26 清华大学 在大规模社会网络中基于路径评分的个人关系发现方法
CN110097000A (zh) * 2019-04-29 2019-08-06 东南大学 基于局部特征聚合描述符和时序关系网络的视频行为识别方法

Also Published As

Publication number Publication date
CN112084319A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN111538848A (zh) 一种融合多源信息的知识表示学习方法
Liu et al. Cross-attentional spatio-temporal semantic graph networks for video question answering
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN112084319B (zh) 一种基于动作的关系网络视频问答系统及方法
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN111125520B (zh) 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
CN117058266B (zh) 一种基于骨架和轮廓的书法字生成方法
CN111061951A (zh) 一种基于双层自注意力评论建模的推荐模型
CN115062109A (zh) 一种基于实体对注意力机制的实体关系联合抽取方法
CN116108351A (zh) 面向跨语言知识图谱的弱监督实体对齐优化方法及系统
CN115563314A (zh) 多源信息融合增强的知识图谱表示学习方法
CN117407532A (zh) 一种利用大模型与协同训练进行数据增强的方法
CN115687638A (zh) 基于三元组森林的实体关系联合抽取方法及系统
CN115964468A (zh) 一种基于多层次模板匹配的乡村信息智能问答方法及装置
CN111428518B (zh) 一种低频词翻译方法及装置
CN112926323A (zh) 基于多级残差卷积与注意力机制的中文命名实体识别方法
CN117521795A (zh) 一种基于虚拟时序约束增强的时序知识图谱问答方法
CN115599954B (zh) 一种基于场景图推理的视频问答方法
Liu et al. Entity representation learning with multimodal neighbors for link prediction in knowledge graph
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN114298022A (zh) 一种用于大规模复杂语义网络的子图匹配的方法
CN116266268A (zh) 基于对比学习与语义感知的语义解析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210525

Address after: 610000 China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan

Patentee after: Sichuan Huakun Zhenyu Intelligent Technology Co.,Ltd.

Address before: No. 430, Section 2, west section of North Changjiang Road, Lingang Economic and Technological Development Zone, Yibin, Sichuan, 644000

Patentee before: Sichuan Artificial Intelligence Research Institute (Yibin)