CN111652357A - 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 - Google Patents
一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 Download PDFInfo
- Publication number
- CN111652357A CN111652357A CN202010795120.0A CN202010795120A CN111652357A CN 111652357 A CN111652357 A CN 111652357A CN 202010795120 A CN202010795120 A CN 202010795120A CN 111652357 A CN111652357 A CN 111652357A
- Authority
- CN
- China
- Prior art keywords
- video
- target
- question
- encoder
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 241001465754 Metazoa Species 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 4
- 230000000007 visual effect Effects 0.000 abstract description 15
- 238000001514 detection method Methods 0.000 abstract description 8
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000007547 defect Effects 0.000 abstract description 6
- 238000005457 optimization Methods 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种利用基于图的特定目标网络解决视频问答问题的方法及其系统,属于视频问答文本生成领域。主要包括如下步骤:1)针对于一组视频、问题、答案训练集,训练一个跨模态编码器,学习出视频信息和问题信息的联合表征。2)对于跨模态编码器编码完成的得到视频问题联合表达的神经网络的输出,通过一个解答模块根据数据集的不同问题训练不同的解码器,输出针对于视频和问题联合表达的自然语言答案。本发明采用一个更加细粒度的基于图的关系敏感的编码器来获得视频问答中的目标关系,采用一个特定目标的时序编码器来捕获特定目标的同质动态视觉线索,采用轨迹优化算法,减轻了复杂场景下目标检测的不足,有效提升了视频问答的性能。
Description
技术领域
本发明涉及视频问答文本生成,尤其涉及一种利用基于图的特定目标网络解决视频问答问题的方法。
背景技术
开放式的视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
视频问答是计算机视觉和自然语言处理之间的一个跨学科领域。一个视频问答模型不仅要理解视觉内容和文本内容,还要理解它们之间的相关性。随着对象检测技术的发展,越来越多的视频问答模型利用目标级视觉内容作为进一步推理步骤的重要可视线索。
但是现有的视频问答方法中忽略了目标之间的相互依赖关系,缺少了可以给视觉问答提供重要的视觉线索;且现有技术中对目标级别的视觉数据的处理方式仅仅使用注意力机制简化了目标级别的视觉信息,这会导致很多时序依赖信息和目标的动态信息的丢失。此外,视觉信息往往混杂了很多干扰信息,这会影响目标检测,比如在跟踪某个目标的轨迹时会出现照相问题、某些目标突然消失或者突然出现,一些噪声等,这会导致目标检测和轨迹推测很不稳定。
综上,现有技术中还不能有效地利用目标级的视觉信息,导致了在复杂场景应用中性能有限,难以满足高要求场景下的使用。
发明内容
本发明的目的在于解决现有技术中的问题,提出了一个更加细粒度的基于图的关系敏感的编码器来获得视频问答中的目标关系,同时本发明还提出了一个特定目标的时序编码器来捕获特定目标的同质动态视觉线索。除此之外,本发明还设计了一种更通用、更方便的轨迹优化算法,减轻了复杂场景下目标检测的不足。
本发明具体采用的一种利用基于图的特定目标网络解决视频问答问题的方法,包括如下步骤。
1)建立由跨模态编码网络和多解码网络组成的特定目标网络模型,所述的跨模态编码网络中包括一个针对特定目标的时序编码器、自注意力模块和多头注意力模块。
2)获取视频及问题语句;
对于一段视频,训练出针对特定目标的时序编码器来得到目标通道特征和轨迹特征;
对于一段视频及问题语句,分别利用自注意力模块获得全局相关的帧通道特征和问题通道特征。
3)将目标通道特征、轨迹特征、帧通道特征和问题通道特征作为多头注意力模块的输入,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果;将三个自注意力结果与问题通道特征通过级联和线性层处理后得到跨模态编码结果。
4)针对问题的不同形式构建不同的解码器,对跨模态编码结果进行解码,得到针对问题的预测答案;将获得的针对不同问题的预测答案与真实答案进行比较,更新跨模态编码网络和多解码网络的参数,得到最终的基于图的特定目标网络模型。
5)对于要预测答案的视频和问题,根据生成的最终的基于图的特定目标网络模型,得到所预测的答案。
本发明的另一目的在于提供了一种用于实现上述方法的系统。
包括:
视频及问题语句获取模块:用于获取视频及问题语句。
时序编码模块:用于读取视频及问题语句获取模块采集到的视频数据,输出目标通道特征和轨迹特征。
第一自注意力模块:用于将视频及问题语句获取模块输出的视频数据处理得到全局相关的帧通道特征。
第二自注意力模块:用于将视频及问题语句获取模块输出的问题语句处理得到问题通道特征。
多头注意力模块:用于将时序编码模块输出的目标通道特征和轨迹特征、以及第一自注意力模块输出的帧通道特征、第二自注意力模块输出的问题通道特征进行注意力操作,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果。
后处理模块:用于将多头注意力模块输出的三个自注意力结果与第二自注意力模块输出的问题通道特征进行级联和线性层处理,输出最终的编码结果。
解答模块:用于对编码结果进行解码操作,输出所预测的答案。
相对于传统方法,本发明有效提升了视频问答的性能,具体体现在以下三个方面。
(1)本发明采用了基于图的多种视觉编码器,包括空间图编码器、交互图编码器、语义图编码器,在处理目标特征和帧特征时都采用以目标特征作为图中顶点,而帧特征作为附加信息帮助更好地建模图模型,可以很好地建模目标之间的相互依赖性,解决了传统方法没有考虑目标之间的相互依赖性的缺陷,提升了视觉编码效果。
(2)针对传统方法忽略了目标的时序信息的缺陷,本发明提出了特定目标的时序编码器,包括了两个通道,建模了目标的时序信息和动态信息,提升了对视频中的目标的建模能力。
(3)针对传统方法中由于目标检测的缺陷导致轨迹推测不稳定的问题,本发明设计了一种更通用、更方便的轨迹优化算法,将dlib获取到的原始轨迹信息分类为确定轨迹和不确定轨迹,通过调整规则将相似的轨迹进行合并,最后将优化后的轨迹信息进行后处理后作为轨迹特征,减轻了复杂场景下目标检测的不足。
附图说明
图1是本发明所使用的特定目标的时序编码器的整体模型。
图2是本发明所使用的基于图的特定目标网络的整体模型。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1和2所示,本发明用基于图的特定目标网络解决视频问答问题的方法包括如下步骤。
步骤一、对于输入的视频及问题,训练一个跨模态编码器,学习出视频信息和问题信息的联合表征。
步骤二、对于输入的视频及问题,得到跨模态编码器编码完成的得到视频问题联合表达的神经网络的输出;通过一个解答模块根据数据集的不同问题训练不同的解码神经网络。
步骤三、对于要预测答案的视频和问题,根据生成的跨模态编码器和解码神经网络,得到所预测的答案。
在本发明的一项具体实施中,步骤一的实施过程如下:
1)建立由跨模态编码网络和多解码网络组成的特定目标网络模型,所述的跨模态编码网络中包括一个针对特定目标的时序编码器、自注意力模块和多头注意力模块。
2)获取视频及问题语句。
对于一段视频,训练出针对特定目标的时序编码器来得到目标通道特征D o 和轨迹特征D tra 。
对于一段视频及问题语句,分别利用自注意力模块获得全局相关的帧通道特征h f 和问题通道特征h q ;具体的,对于给定的问题文本,采用预训练好的GloVe模型进行词嵌入,随后采用自注意力模块进行编码,优选的,所述的自注意力模块采用Transformer中的自注意力模型。自注意力模型的计算公式如下h out =Atten(Q, K, V),这里的Atten是多头注意力机制,Q, K, V分别代表询问,键,值。对于给定的视频帧和问题,经过自注意力模型,得到编码的问题通道特征h q 和帧通道特征h f 。本发明获得了问题和视频的联合表征。
3)将目标通道特征D o 、轨迹特征D tra 、帧通道特征h f 和问题通道特征作为多头注
意力模块的输入,其中以问题通道特征h q 作为询问序列,分别与目标通道特征、轨迹特征、
帧通道特征通过多头注意力机制进行交互,输出三个自注意力结果;将三个自注意力结果
与问题通道特征经级联和线性层处理后得到跨模态编码结果。
具体的,针对特定目标的时序编码器包括两个通道,第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成;第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成。优选的,所述的帧级特征提取层采用ResNet网络,所述的目标级特征提取层采用Mask RCNN网络。
所述的空间图编码器用来获取目标之间的空间特征,语义图编码器和交互图编码器采用相同的结构,这两个编码器都是用来探索目标之间的相互的语义联系。对于空间图编码器,本发明通过可学习的方法控制信息传递。
具体为:
获取两个目标区域之间的相对位置特征,并进行位置编码,获得高维特征loc s ;
根据位置编码信息计算相对分数S uv =max(0,(w s loc s )),其中w s 是一个可学习的向量,loc s 是通过位置编码获得的高维特征。
本发明启发式地定义了四种常见的空间关系类型:包括、排除、与IoU的交互作用
大于0.5和与IoU的交互作用小于0.5,作为四种不同的边缘标签。由于这些关系类型不是消
息传递过程中的主要因素,本发明将它们设置为包含辅助空间关系分类的四种不同偏差。
空间图编码器采用的消息传递的公式为:
语义图编码器旨在探讨对象之间的相互关系。与空间图相似,本发明设置几种不
同的偏差作为辅助交互关系信息,分两步:(1)根据识别类型,将对象细分为三类:人、
动物和其他。(2)根据连接对象的分组,将相互关系分为人对动物、人对人、人对其他、动物
对动物、动物对人、动物对其他、其他对人、其他对动物、其他对其他共9种类型,每一种类型
对应不同的偏差。为了增强有效信息和减少不相关信息,本发明采用了自适应消息通
道策略。
对于目标u和v,本发明采用的信息传递公式为:
其中,是常量,本发明取为0.5,是表示第l-1层第u个顶点的特征,是表
示第l层第v个顶点的特征,是表示第l-1层第v个顶点的特征,、、是参数矩
阵,是权重参数,表示和v相邻的顶点,是附加信息中的帧特征,是Relu激活函数,u表示第u个顶点,表示偏差。
交互图编码器和语义图编码器采用相同的信息传递公式,两种图编码器具备相同的结构。
在本发明的一项具体实施中,将给定的一段视频作为时序编码器两个通道的输入,采用帧级特征提取层获取视频的帧特征,采用目标级特征提取层获取每一个视频帧的目标区域特征;将帧特征和目标区域特征分别通过空间图编码器和交互图编码器进行处理,并将其输出进行融合,再采用语义图编码器获取编码后的目标通道特征D o ;所述的空间图编码器、交互图编码器、语义图编码器在处理帧特征和目标区域特征时,以目标区域特征作为图中顶点,以帧特征作为附加信息,用于辅助建模。
通过第二通道的轨迹提取层提取目标区域特征的原始轨迹信息,并对原始轨迹信息进行调整,调整后的轨迹提取器用来获得相对可靠的轨迹信息。
所述轨迹调整具体为:
采用dlib获取粗糙的原始轨迹信息。
将超过N def 个帧的轨迹分类成确定轨迹,其他的分类成不确定轨迹,本实施例中N def = 3。
对于确定轨迹集合中的任意两个轨迹,若两个轨迹不相交、两个目标种类相同且IOU>0.5,则找到这两个轨迹里面距离最近的两个目标,判断距离是否小于阈值,若是,则将两个轨迹合并;若上述条件有一个不满足则不合并。将不确定的轨迹和已经并好的确定性轨迹按照相同规则并起来。这样就完成了轨迹的调整。
调整后的轨迹信息经位置编码后输入到自注意力模块,再经卷积操作和压缩操作,最后采用语义图编码器获取编码后的轨迹特征D tra 。
在本发明的一项具体实施中,步骤二的实施过程如下:
对于输入的视频及问题,得到跨模态编码器编码完成的得到视频问题联合表达的神经网络的输出;通过一个解答模块根据数据集不同问题训练不同的解码神经网络。
针对以下四个问题:
帧问答:从视频的某一帧中获取问题的答案,并输出答案帧。
重复计数:获取某个特征动作在视频中的重复次数,并输出答案。
重复活动:针对待选择的特定动作,从视频中确定重复了特定次数的动作,并输出答案。
状态转换:针对目标动作、目标位置和目标属性的转变问题,并输出答案。
本发明的另一目的在于提供了一种用于实现上述方法的系统。
包括:
视频及问题语句获取模块:用于获取视频及问题语句。
时序编码模块:用于读取视频及问题语句获取模块采集到的视频数据,输出目标通道特征和轨迹特征。
第一自注意力模块:用于将视频及问题语句获取模块输出的视频数据处理得到全局相关的帧通道特征。
第二自注意力模块:用于将视频及问题语句获取模块输出的问题语句处理得到问题通道特征。
多头注意力模块:用于将时序编码模块输出的目标通道特征和轨迹特征、以及第一自注意力模块输出的帧通道特征、第二自注意力模块输出的问题通道特征进行注意力操作,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果。
后处理模块:用于将多头注意力模块输出的三个自注意力结果与第二自注意力模块输出的问题通道特征进行级联和线性层处理,输出最终的编码结果。
解答模块:用于对编码结果进行解码操作,输出所预测的答案。
其中,所述的时序编码模块包括两个通道,第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成;第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成。
在本发明的一项具体实施中,所述的帧级特征提取层配置有ResNet网络,目标级特征提取层配置有Mask RCNN网络;其中空间图编码器用来获取目标之间的空间特征,语义图编码器和交互图编码器采用相同的结构,这两个编码器都是用来探索目标之间的相互的语义联系;语义图编码器能够在问题通道的指导下学习目标之间的关系。
在本发明的一项具体实施中,所述的轨迹调整层用于将粗糙的原始轨迹信息进行整理,用来获得相对可靠的轨迹信息。
其中,所述的解答模块包括四个解码器,每一个解码器针对不同的问题形式进行训练。
在本申请所提供的具体实施方式中,应该理解到,以上所描述的系统实施例仅仅是示意性的,例如所述时序编码模块,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的模块之间的连接可以是通过一些接口进行通信连接,可以是电性或其它的形式。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在TGIF-QA上面进行实验验证,本数据集包含71k条GIF片段以及165k问答对。在这个数据集种主要包括下面四个问题。
分别是:
1)帧问答:模型可以从视频中的某一帧获得答案。
2)重复计数:计数某个特定动作的重复次数。
3)重复活动:给出5个活动,模型选出重复了特定次数的活动。
4)状态转换:有关动作、位置和目标属性等状态特征的转变问题。
下面是本发明在上述数据集上面的实验结果。
表1 实验结果
方法 | 重复活动 | 状态转换 | 帧问答 | 重复计数 |
GR-ATT | 68.8 | 73.9 | 53.0 | 4.32 |
本发明 | 74.8 | 82.4 | 57.5 | 4.22 |
实验结果中重复活动、状态转换、帧问答都是采用了准确率作为评测指标,而重复计数采用了均方误差作为重复指标。通过上述结果可以看出,本发明在各种问题上已经超过了现有的传统方法,说明本发明采用的多种视觉编码器很好地建模目标之间的相互依赖性,提升了视觉编码效果,并结合了目标的时序信息和优化的轨迹算法,提高了检测能力。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (10)
1.一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于包括如下步骤:
1)建立由跨模态编码网络和多解码网络组成的特定目标网络模型,所述的跨模态编码网络中包括一个针对特定目标的时序编码器、自注意力模块和多头注意力模块;
2)获取视频及问题语句;
对于一段视频,训练出针对特定目标的时序编码器来得到目标通道特征和轨迹特征;
对于一段视频及问题语句,分别利用自注意力模块获得全局相关的帧通道特征和问题通道特征;
3)将目标通道特征、轨迹特征、帧通道特征和问题通道特征作为多头注意力模块的输入,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果;将三个自注意力结果与问题通道特征通过级联和线性层处理后得到跨模态编码结果;
4)针对问题的不同形式构建不同的解码器,对跨模态编码结果进行解码,得到针对问题的预测答案;将获得的针对不同问题的预测答案与真实答案进行比较,更新跨模态编码网络和多解码网络的参数,得到最终的基于图的特定目标网络模型;
5)对于要预测答案的视频和问题,根据生成的最终的基于图的特定目标网络模型,得到所预测的答案。
2.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述的自注意力模块采用Transformer中的自注意力模型。
3.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述针对特定目标的时序编码器包括两个通道,第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成;第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成;
将给定的一段视频作为时序编码器两个通道的输入,采用帧级特征提取层获取视频的帧特征,采用目标级特征提取层获取每一个视频帧的目标区域特征;将帧特征和目标区域特征分别通过空间图编码器和交互图编码器进行处理,并将其输出进行融合,再采用语义图编码器获取编码后的目标通道特征;所述的空间图编码器、交互图编码器、语义图编码器在处理帧特征和目标区域特征时,以目标区域特征作为图中顶点,以帧特征作为附加信息;
通过第二通道的轨迹提取层提取目标区域特征的原始轨迹信息,并对原始轨迹信息进行调整,调整后的轨迹信息经位置编码后输入到自注意力模块,再经卷积操作和压缩操作,最后采用语义图编码器获取编码后的轨迹特征。
4.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述的帧级特征提取层采用ResNet网络。
5.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述的目标级特征提取层采用Mask RCNN网络。
7.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述第一通道中的语义图编码器和交互图编码器采用相同的结构,具体为:
根据目标识别类型,将目标分为人、动物和其他共3组;
采用自适应消息通道策略进行消息传递,所述消息传递的公式为:
8.根据权利要求3所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述轨迹调整层具体为:
采用dlib获取原始轨迹信息;
将原始轨迹信息划分为确定轨迹集合和不确定轨迹集合;
对于确定轨迹集合中的任意两个轨迹,若两个轨迹不相交、两个目标种类相同且IOU>0.5,则寻找这两个轨迹里面距离最近的两个目标,判断距离是否小于阈值,若是,则将两个轨迹合并;否则不合并。
9.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,针对问题的不同形式构建不同的解码器,所述问题的形式包括:
帧问答:从视频的某一帧中获取问题的答案,并输出答案帧;
重复计数:获取某个特征动作在视频中的重复次数,并输出答案;
重复活动:针对待选择的特定动作,从视频中确定重复了特定次数的动作,并输出答案;
状态转换:针对目标动作、目标位置和目标属性的转变问题,并输出答案;
10.一种用于实现权利要求1所述的利用基于图的特定目标网络解决视频问答问题的方法的系统,其特征在于,包括:
视频及问题语句获取模块:用于获取视频及问题语句;
时序编码模块:用于读取视频及问题语句获取模块采集到的视频数据,输出目标通道特征和轨迹特征;
第一自注意力模块:用于将视频及问题语句获取模块输出的视频数据处理得到全局相关的帧通道特征;
第二自注意力模块:用于将视频及问题语句获取模块输出的问题语句处理得到问题通道特征;
多头注意力模块:用于将时序编码模块输出的目标通道特征和轨迹特征、以及第一自注意力模块输出的帧通道特征、第二自注意力模块输出的问题通道特征进行注意力操作,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果;
后处理模块:用于将多头注意力模块输出的三个自注意力结果与第二自注意力模块输出的问题通道特征进行级联和线性层处理,输出最终的编码结果;
解答模块:用于对编码结果进行解码操作,输出所预测的答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010795120.0A CN111652357B (zh) | 2020-08-10 | 2020-08-10 | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010795120.0A CN111652357B (zh) | 2020-08-10 | 2020-08-10 | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652357A true CN111652357A (zh) | 2020-09-11 |
CN111652357B CN111652357B (zh) | 2021-01-15 |
Family
ID=72346429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010795120.0A Active CN111652357B (zh) | 2020-08-10 | 2020-08-10 | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652357B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464875A (zh) * | 2020-12-09 | 2021-03-09 | 南京大学 | 一种视频中的人-物交互关系检测方法及装置 |
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
CN112587129A (zh) * | 2020-12-01 | 2021-04-02 | 上海影谱科技有限公司 | 一种人体动作识别方法及装置 |
CN113486875A (zh) * | 2021-09-08 | 2021-10-08 | 浙江大学 | 基于词分离和自适应的跨域人脸表示攻击检测方法和系统 |
CN113538506A (zh) * | 2021-07-23 | 2021-10-22 | 陕西师范大学 | 基于全局动态场景信息深度建模的行人轨迹预测方法 |
CN113536952A (zh) * | 2021-06-22 | 2021-10-22 | 电子科技大学 | 一种基于动作捕捉的注意力网络的视频问答方法 |
CN113780370A (zh) * | 2021-08-23 | 2021-12-10 | 咪咕文化科技有限公司 | 视觉问答方法、装置、设备及存储介质 |
CN115599954A (zh) * | 2022-12-12 | 2023-01-13 | 广东工业大学(Cn) | 一种基于场景图推理的视频问答方法 |
CN117315056A (zh) * | 2023-11-27 | 2023-12-29 | 支付宝(杭州)信息技术有限公司 | 视频编辑方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN110727824A (zh) * | 2019-10-11 | 2020-01-24 | 浙江大学 | 利用多重交互注意力机制解决视频中对象关系问答任务的方法 |
CN110929092A (zh) * | 2019-11-19 | 2020-03-27 | 国网江苏省电力工程咨询有限公司 | 一种基于动态注意力机制的多事件视频描述方法 |
CN111008302A (zh) * | 2019-11-18 | 2020-04-14 | 浙江大学 | 一种利用基于图论的多重交互网络机制解决视频问答问题的方法 |
CN111079532A (zh) * | 2019-11-13 | 2020-04-28 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
US10719764B2 (en) * | 2017-05-23 | 2020-07-21 | Google Llc | Attention-based sequence transduction neural networks |
-
2020
- 2020-08-10 CN CN202010795120.0A patent/CN111652357B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10719764B2 (en) * | 2017-05-23 | 2020-07-21 | Google Llc | Attention-based sequence transduction neural networks |
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN110727824A (zh) * | 2019-10-11 | 2020-01-24 | 浙江大学 | 利用多重交互注意力机制解决视频中对象关系问答任务的方法 |
CN111079532A (zh) * | 2019-11-13 | 2020-04-28 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN111008302A (zh) * | 2019-11-18 | 2020-04-14 | 浙江大学 | 一种利用基于图论的多重交互网络机制解决视频问答问题的方法 |
CN110929092A (zh) * | 2019-11-19 | 2020-03-27 | 国网江苏省电力工程咨询有限公司 | 一种基于动态注意力机制的多事件视频描述方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
CN112587129B (zh) * | 2020-12-01 | 2024-02-02 | 上海影谱科技有限公司 | 一种人体动作识别方法及装置 |
CN112587129A (zh) * | 2020-12-01 | 2021-04-02 | 上海影谱科技有限公司 | 一种人体动作识别方法及装置 |
CN112464875A (zh) * | 2020-12-09 | 2021-03-09 | 南京大学 | 一种视频中的人-物交互关系检测方法及装置 |
CN113536952A (zh) * | 2021-06-22 | 2021-10-22 | 电子科技大学 | 一种基于动作捕捉的注意力网络的视频问答方法 |
CN113536952B (zh) * | 2021-06-22 | 2023-04-21 | 电子科技大学 | 一种基于动作捕捉的注意力网络的视频问答方法 |
CN113538506A (zh) * | 2021-07-23 | 2021-10-22 | 陕西师范大学 | 基于全局动态场景信息深度建模的行人轨迹预测方法 |
CN113780370A (zh) * | 2021-08-23 | 2021-12-10 | 咪咕文化科技有限公司 | 视觉问答方法、装置、设备及存储介质 |
CN113780370B (zh) * | 2021-08-23 | 2024-05-07 | 咪咕文化科技有限公司 | 视觉问答方法、装置、设备及存储介质 |
CN113486875A (zh) * | 2021-09-08 | 2021-10-08 | 浙江大学 | 基于词分离和自适应的跨域人脸表示攻击检测方法和系统 |
CN115599954A (zh) * | 2022-12-12 | 2023-01-13 | 广东工业大学(Cn) | 一种基于场景图推理的视频问答方法 |
CN117315056A (zh) * | 2023-11-27 | 2023-12-29 | 支付宝(杭州)信息技术有限公司 | 视频编辑方法及装置 |
CN117315056B (zh) * | 2023-11-27 | 2024-03-19 | 支付宝(杭州)信息技术有限公司 | 视频编辑方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111652357B (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652357B (zh) | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 | |
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
Ma et al. | Joint embedding VQA model based on dynamic word vector | |
CN112613303B (zh) | 一种基于知识蒸馏的跨模态图像美学质量评价方法 | |
CN111400591B (zh) | 资讯信息推荐方法、装置、电子设备及存储介质 | |
CN111401174B (zh) | 一种基于多模态信息融合的排球群体行为识别方法 | |
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
CN110851760B (zh) | 在web3D环境融入视觉问答的人机交互系统 | |
CN114970517B (zh) | 一种基于多模态交互的上下文感知的面向视觉问答的方法 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN111931549B (zh) | 一种基于多任务非自回归解码的人体骨架的动作预测方法 | |
CN115719510A (zh) | 基于多模态融合及隐式交互关系学习的群组行为识别方法 | |
CN117351550A (zh) | 基于有监督对比学习的网格自注意力人脸表情识别方法 | |
CN110472746B (zh) | 一种基于人工智能的编码预测方法和系统 | |
CN117437317A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN117315070A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN110889505B (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
CN117112786A (zh) | 一种基于图注意力网络的谣言检测方法 | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN112215346B (zh) | 一种实现类人通用人工智能机器的方法 | |
CN114661874B (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 | |
CN117173715A (zh) | 一种注意力视觉问答方法、装置、电子设备及存储介质 | |
CN114168769B (zh) | 基于gat关系推理的视觉问答方法 | |
CN117034133A (zh) | 一种数据处理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |