CN114911930B - 一种全局与局部互补的双向注意的视频问答方法与系统 - Google Patents

一种全局与局部互补的双向注意的视频问答方法与系统 Download PDF

Info

Publication number
CN114911930B
CN114911930B CN202210393827.8A CN202210393827A CN114911930B CN 114911930 B CN114911930 B CN 114911930B CN 202210393827 A CN202210393827 A CN 202210393827A CN 114911930 B CN114911930 B CN 114911930B
Authority
CN
China
Prior art keywords
global
representation
appearance
question
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210393827.8A
Other languages
English (en)
Other versions
CN114911930A (zh
Inventor
王若梅
罗源茂
周凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210393827.8A priority Critical patent/CN114911930B/zh
Publication of CN114911930A publication Critical patent/CN114911930A/zh
Application granted granted Critical
Publication of CN114911930B publication Critical patent/CN114911930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种全局与局部互补的双向注意的视频问答方法与系统。包括:首先对数据集进行预处理,利用多头自注意力层和卷积层获取具有全局和局部上下文信息的特征,然后利用图注意机制进行聚合,最后通过将获取的特征输入答案预测模块,进行模型训练和预测。本发明利用多头自注意力机制提取完整的全局上下文信息,利用一维卷积神经网络网络提取精确的局部上下文信息,实现更加完整和精确的特征提取。同时,本发明以不同的顺序堆叠多头自注意力层和一维卷积层,使全局信息和局部信息相互补充与融合,实现了特征表示的多步推理过程。本发明通过对答案预测模块的修改,能够在多项视频问答任务中发挥作用,提高精确度,也拓展了应用场景。

Description

一种全局与局部互补的双向注意的视频问答方法与系统
技术领域
本发明涉及视频问答领域,具体涉及一种全局与局部互补的双向注意的视频问答方法与系统。
背景技术
视频问答(VideoQA)是继视频描述之后的一种细粒度的视频理解任务,相对于视频描述任务中的概括性描述,视频问答不仅需要能够理解视觉内容、文本信息与语音信息,还需要建立三种模态数据之间的联系并进行推理,使得视频问答过程比视频描述过程需要更多的细节描述信息和复杂推理过程,因此研究如何从日益增长的大量视频中提取有效信息尤为重要。视频问答方法共分为基于规则的视频问答方法与基于深度学习的视频问答方法,其中基于规则的视频问答方法最早开始于2003年,早期的视频问答方法将其作为查询内容,问题作为查询子,以检索的方式去定位相关的视频内容信息,研究的对象主要集中在新闻视频领域,并采用视频内容结构化的方式来建模视频内容,并利用HMM来构建推理机制,视频问答从视频中获取信息是重要的和有价值的,特别是因为现在有大量的视频被制作。当前的视频问答方法最早开始于2016年,研究对象主要集中在相应的数据集上,而由于视频问答因其时空特性,使得构建视频问答数据集成为一项具有挑战的任务,从而延缓了视频问答领域的进展,主要的研究方法是采用深度学习的方法来主动学习与问题相关的视频内容。近些年随着数据集的逐步完善,视频问答研究也有了新的进展。有的工作在空间注意力和时间注意力上做了探索,有的则在静态特征和动态特征融合方面有了突破,还有的拓展了视觉问答中的动态记忆网络模型。这些网络能较好地提取有用的视频信息并进行交互,取得了不错的性能。但因为该任务的复杂性,总体的性能仍有大幅度提升的空间,目前视频问答领域更多的工作仍是集中在整合视频动态时序信息以及视频多模态特征融合上。
目前的现有技术之一是由Kyung-Min Kim等人提出的一种基于多头自注意力机制的视频故事问答技术,其关键思想是使用具有晚期融合的双重注意机制。该技术使用自注意力来学习场景帧和字幕中的潜在概念。针对给定的文本问题,对这些潜在的概念再次使用注意力机制。多模态融合是在双重注意过程后进行多模态融合,以此学习从完整视频内容的抽象中推断出高级视觉语言联合表示。其缺点为:该技术基于多头自注意力机制,能够获取特征间完整的全局上下文信息,但缺少对局部上下文信息的细化。同时,该技术仅针对视频故事问答任务中,没有应用在其它丰富的视频问答任务中。
目前的现有技术之二是Liang Peng等人构建的一种共同探索对象级、帧级和剪辑级的多重视觉关系的视频问答技术,其在对象级关系编码中设计了两种互补图,一种用于学习来自同一帧的对象之间的空间关系和语义关系,另一种用于建模来自不同帧的同一对象之间的时间关系。帧级图探索了不同帧之间的交互,以记录细粒度的外观变化,而剪辑级图则模拟了剪辑中各种动作之间的时间和语义关系。这些不同层次的图以一种渐进的方式连接,以学习从低级到高级的视觉关系。其缺点为:该技术利用注意力机制,以对象级、帧级、剪辑级、视频级的次序逐步视频内容进行处理,从视频的局部信息逐步拓展到全局信息,缺少由视频全局信息向局部信息的细化步骤,也缺少了全局信息与局部信息之间的多步推理步骤。
发明内容
本发明的目的是克服现有方法的不足,提出了一种全局与局部互补的双向注意的视频问答方法。本发明解决的主要问题:一是现有技术缺乏对局部上下文信息的细化,适用性较低,应用场景受限的问题;二是现有技术缺少全局信息与局部信息之间的多步推理步骤,计算机对视频内容的理解准确度较低的问题。
为了解决上述问题,本发明提出了一种全局与局部互补的双向注意的视频问答方法,所述方法包括:
将视频问答数据集划分为训练集与测试集,从训练集中获取原始视频、相应的文本问题和答案标识;
对所述原始视频、所述文本问题进行预处理操作,获得视频的外观特征表示、运动特征表示和问题表示;
将所述问题表示进行平铺处理,获得平铺张量,将其与所述外观特征表示和所述运动特征表示对齐,形成特征表示组合;
利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块,对所述特征表示组合进行处理,分别获得具有全局与局部上下文信息的外观特征和运动特征;
对所述特征表示组合分别处理,构建无向全连接的外观图和运动图,利用图注意机制进行聚合操作,获得具有全局上下文信息的外观特征和运动特征;
构建答案预测模块,将所述具有全局与局部上下文信息的外观特征和运动特征,以及所述具有全局上下文信息的外观特征和运动特征进行连接,得到最终特征,并将其与所述问题表示作为预测模块的输入,进行模型训练操作,得到训练好的答案预测模型;
从所述测试集获取目标视频和问题,重复所述预处理操作,根据问题类型将处理结果输入所述训练好的答案预测模型,输出需要获取的视频问答答案。
优选地,所述将视频问答数据集划分为训练集与测试集,从训练集中获取原始视频、相应的文本问题和答案标识,具体为:
采用大型数据集TGIF-QA作为视频问答数据集,将其划分为训练集与测试集;
数据集由72000个动画gif中收集到的165000个问题—答案对组成,包含计数、动作、状态转换和帧问答四种类型的任务;
从划分的训练集中提取原始视频、相应的文本问题和答案标识。
优选地,所述对所述原始视频、所述文本问题进行预处理操作,获得视频的外观特征表示、运动特征表示和问题表示,具体为:
对所述原始视频均匀采样为128帧,并均匀分割为8个片段,每个片段包含16帧;
将获得的每个片段输入预训练的特征提取器ResNeXt,输出片段级运动向量Fm,将获得的每个帧输入预训练的特征提取器ResNet,输出帧级外观特征向量Fa
将运动向量Fm和外观特征向量Fa输入双向循环网络BiLSTM,将正向和反向的长短词记忆模型LSTM的输出隐藏状态连接,并在时间维度上对齐两种特征,获得运动特征表示Vm和外观特征表示Va
利用预训练的GloVe模型将所述问题表示嵌入到300维的向量中,将与上下文无关的嵌入向量输入双向循环网络BiLSTM,然后将正向和反向LSTM的输出隐藏状态连接,获得问题表示q。
优选地,所述将所述问题表示进行平铺处理,获得平铺张量,将其与所述外观特征表示和所述运动特征表示对齐,形成特征表示组合,具体为:
将所述问题表示q复制为128份并拼接得到平铺张量qtile
将平铺张量qtile的维度与所述外观特征表示Va和所述运动特征表示Vm进行对齐,形成特征表示组合(Va,qtile)和(Vm,qtile)。
优选地,所述利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块,对所述特征表示组合进行处理,分别获得具有全局与局部上下文信息的外观特征和运动特征,具体为:
利用多头自注意力层获取所述特征表示组合的全局上下文信息,利用一维卷积层获取所述特征表示组合的局部上下文信息;
以不同的次序堆叠多头自注意力层和一维卷积层,构建先全局后局部和先局部后全局的两种上下文信息获取子模块,连接子模块的输出,构成全局与局部双向注意模块;
将所述特征表示组合(Va,qtile)和(Vm,qtile)输入全局与局部双向注意模块,输出具有全局与局部上下文信息的外观特征和运动特征
优选地,所述对所述特征表示组合分别处理,构建无向全连接的外观图和运动图,利用图注意机制进行聚合操作,获得具有全局上下文信息的外观特征和运动特征,具体为:
将所述特征表示组合(Va,qtile)和(Vm,qtile)分别拼接为[Va,qtile]和[Vm,qtile],作为无向全连接外观图和运动图的节点;
计算顶点间的相关性αi,j,作为连接两节点的边的权值,计算公式如下:
其中,σ(·)是一个非线性函数如LeakyReLU,a是前馈神经网络的可学习参数,Wk是共享的可学习矩阵,是节点的邻接节点的集合,[·||·]表示连接操作;
利用邻接节点和边的加权聚合操作,更新节点的特征,分别获得具有全局上下文信息的外观特征和运动特征
优选地,所述构建答案预测模块,将所述具有全局与局部上下文信息的外观特征和运动特征,以及所述具有全局上下文信息的外观特征和运动特征进行连接,得到最终特征,并将其与所述问题表示作为预测模块的输入,进行模型训练操作,得到训练好的答案预测模型,具体为:
将所述具有全局与局部上下文信息的外观特征和运动特征以及具有全局上下文信息的外观特征和运动特征进行连接,得到最终特征Vf,将其与所述问题表示q作为答案预测模块的输入;
对于帧问答任务,根据多分类问题的方法计算标签概率p,使用交叉熵损失完成该任务;
对于计数任务,利用一个线性回归函数处理后进行舍入操作,使用均方差损失来完成该任务;
对于动作任务和状态转换任务,根据每组问题与候选答案的联合表示得到一个实值得分,通过正确答案得分sp和错误答案得分sn的铰链损失max(0,1+sn-sp)进行优化。
相应地,本发明还提供了一种全局与局部互补的双向注意的视频问答系统,包括:
数据集处理单元,用于将视频问答数据集划分为训练集与测试集,从训练集中获取原始视频、相应的文本问题和答案标识,并进行预处理操作;
特征获取单元,用于将预处理后的数据进行平铺处理与对齐操作,获得特征表示组合,输入全局与局部双向注意模块以及利用图注意机制进行聚合操作,获取相关特征;
模型训练与预测单元,用于将所获得的特征进行连接得到最终特征,作为预测模块的输入,并进行模型训练与最终预测。
实施本发明,具有如下有益效果:
本发明提出一种全局与局部互补的双向注意的视频问答方法。第一,本发明利用多头自注意力机制提取完整的全局上下文信息,利用一维卷积神经网络网络提取精确的局部上下文信息,实现更加完整和精确的特征提取;第二,本发明以不同的顺序堆叠多头自注意力层和一维卷积层,使全局信息和局部信息相互补充与融合,实现了特征表示的多步推理过程;第三,通过对答案预测模块的修改,本发明能够在多项视频问答任务中发挥作用,拓展了应用场景。
附图说明
图1是本发明实施例的一种全局与局部互补的双向注意的视频问答方法总体流程图;
图2是本发明实施例的一种全局与局部互补的双向注意的视频问答系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术发明进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的一种全局与局部互补的双向注意的视频问答方法总体流程图,如图1所示,该方法包括:
S1,将视频问答数据集划分为训练集与测试集,从训练集中获取原始视频、相应的文本问题和答案标识;
S2,对所述原始视频、所述文本问题进行预处理操作,获得视频的外观特征表示、运动特征表示和问题表示;
S3,将所述问题表示进行平铺处理,获得平铺张量,将其与所述外观特征表示和所述运动特征表示对齐,形成特征表示组合;
S4,利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块,对所述特征表示组合进行处理,分别获得具有全局与局部上下文信息的外观特征和运动特征;
S5,对所述特征表示组合分别处理,构建无向全连接的外观图和运动图,利用图注意机制进行聚合操作,获得具有全局上下文信息的外观特征和运动特征;
S6,构建答案预测模块,将所述具有全局与局部上下文信息的外观特征和运动特征,以及所述具有全局上下文信息的外观特征和运动特征进行连接,得到最终特征,并将其与所述问题表示作为预测模块的输入,进行模型训练操作,得到训练好的答案预测模型;
S7,从所述测试集获取目标视频和问题,重复所述预处理操作,根据问题类型将处理结果输入所述训练好的答案预测模型,输出需要获取的视频问答答案。
步骤S1,具体如下:
S1-1:从视频问答数据库中提取原始视频和相应的文本问题。数据来源于大型视频问答数据集TGIF-QA,该数据集由72000个动画gif中收集到的165000个问题-答案对组成,包含四种类型的任务:计数、动作、状态转换和帧问答。
步骤S2,具体如下:
S2-1:对S1-1获得的视频均匀采样为128帧,并均匀分割为8个片段,每个片段包含16帧。通过预训练的特征提取器ResNet处理每个帧,获得帧级外观特征向量Fa。通过预训练的特征提取器ResNeXt处理每个片段,获得片段级运动向量Fm
S2-2:使用BiLSTM进一步处理S2-1获得的Fa和Fm,将正向和反向LSTM的输出隐藏状态连接,并在时间维度上对齐两种特征,获得外观特征表示Va和运动特征表示Vm
S2-3:利用预训练的GloVe模型将S1-1获得的问题嵌入到300维的向量中。将这些与上下文无关的嵌入向量输入BiLSTM中。将正向和反向LSTM的输出隐藏状态连接,形成问题表示q。
步骤S3,具体如下:
S3-1:将S2生成的问题表示q复制为128份并拼接得到平铺张量qtile,使其维度与S2-2中获得的Va和Vm对齐,组合为(Va,qtile)和(Vm,qtile)。
步骤S4,具体如下:
S4-1:利用多头自注意力层获取特征的全局上下文信息,利用一维卷积层获取特征的局部上下文信息。
S4-2:以不同的次序堆叠S4-1中构建的多头自注意力层和一维卷积层,分别构建先全局后局部和先局部后全局的两种上下文信息获取子模块,连接子模块的输出,构成全局与局部双向注意模块。
S4-3:将S3-1生成的(Va,qtile)和(Vm,qtile)输入到S4-2构建的模块中,输出融合全局与局部上下文信息的外观特征和运动特征
步骤S5,具体如下:
S5-1:将S3-1生成的(Va,qtile)和(Vm,qtile)分别拼接为[Va,qtile]和[Vm,qtile],作为无向全连接外观图和运动图的节点。
S5-2:根据公式(1)计算顶点间的相关性αi,j,作为连接两节点的边的权值。
其中,σ(·)是一个非线性函数如LeakyReLU,a是前馈神经网络的可学习参数,Wk是共享的可学习矩阵,是节点的邻接节点的集合,[·||·]表示连接操作。
S5-3:利用邻接节点和边的加权聚合操作,更新节点的特征,分别获得具有全局上下文信息的外观特征和运动特征
步骤S6,具体如下:
S6-1:连接S4-3生成的和S5-3生成的得到Vf。将最终特征Vf和问题特征q作为答案预测模块的输入。
S6-2:对于帧问答任务,根据多分类问题的方法计算标签概率p,使用交叉熵损失完成该任务。
S6-3:对于计数任务,利用一个线性回归函数处理后进行舍入操作,使用均方差损失(MSE)来完成该任务。
S6-4:对于动作任务和状态转换任务,根据每组问题与候选答案的联合表示得到一个实值得分,通过正确答案得分sp和错误答案得分sn的铰链损失max(0,1+sn-sp)进行优化。
步骤S7,具体如下:
S7-1:从视频问答数据集的测试集中获得需要处理的视频和问题,利用S2-1,S2-2,S2-3的处理过程,对视频和问题进行编码,根据问题类型输入相应的模型中,输出理解视频内容后对问题的回答。
相应地,本发明还提供了一种全局与局部互补的双向注意的视频问答系统,如图2所示,包括:
数据集处理单元1,用于将视频问答数据集划分为训练集与测试集,从训练集中获取原始视频、相应的文本问题和答案标识,并进行预处理操作。
具体地,将视频问答数据集划分为训练集与测试集,从训练集中获取原始视频、相应的文本问题和答案标识,进行预处理操作,获得视频的外观特征表示、运动特征表示和问题表示,然后进行平铺处理,获得平铺张量,将其与所述外观特征表示和所述运动特征表示对齐,形成特征表示组合。
特征获取单元2,用于将预处理后的数据进行平铺处理与对齐操作,获得特征表示组合,输入全局与局部双向注意模块以及利用图注意机制进行聚合操作,获取相关特征。
具体地,利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块,对特征表示组合进行处理,分别获得具有全局与局部上下文信息的外观特征和运动特征,对特征表示组合分别处理,构建无向全连接的外观图和运动图,利用图注意机制进行聚合操作,获得具有全局上下文信息的外观特征和运动特征。
模型训练与预测单元3,用于将所获得的特征进行连接得到最终特征,作为预测模块的输入,并进行模型训练与最终预测。
具体地,构建答案预测模块,将具有全局与局部上下文信息的外观特征和运动特征,以及具有全局上下文信息的外观特征和运动特征进行连接,得到最终特征,并将其与问题表示作为预测模块的输入,进行模型训练操作,得到训练好的答案预测模型,从测试集获取目标视频和问题,重复预处理操作,根据问题类型将处理结果输入训练好的答案预测模型,输出需要获取的视频问答答案。
因此,本发明首先对数据集进行预处理,利用多头自注意力层获取特征的全局上下文信息,利用一维卷积层获取特征的局部上下文信息。以不同的次序堆叠多头自注意力层和一维卷积层,分别构建先全局后局部和先局部后全局的两种上下文信息获取子模块,连接子模块的输出,构成全局与局部双向注意模块。使用该模块处理初步提取的外观特征和运动特征,输出融合全局与局部上下文信息的外观特征和运动特征。然后,将外观特征、运动特征与问题表示分别拼接,作为无向全连接外观图和运动图中的节点,并计算节点间的相关性,作为连接两节点的边的权值。利用邻接节点和边的加权聚合操作,更新节点的特征,分别获得具有全局上下文信息的外观特征和运动特征。最后构建答案预测模块,将获取的特征输入,进行模型训练和预测。
以上对本发明实施例所提供的一种全局与局部互补的双向注意的视频问答方法与系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种全局与局部互补的双向注意的视频问答方法,其特征在于,所述方法包括:
将视频问答数据集划分为训练集与测试集,从训练集中获取原始视频、相应的文本问题和答案标识;
对所述原始视频、所述文本问题进行预处理操作,获得视频的外观特征表示、运动特征表示和问题表示;
将所述问题表示进行平铺处理,获得平铺张量,将其与所述外观特征表示和所述运动特征表示对齐,形成特征表示组合;
利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块,对所述特征表示组合进行处理,分别获得具有全局与局部上下文信息的外观特征和运动特征;
对所述特征表示组合分别处理,构建无向全连接的外观图和运动图,利用图注意机制进行聚合操作,获得具有全局上下文信息的外观特征和运动特征;
构建答案预测模块,将所述具有全局与局部上下文信息的外观特征和运动特征,以及所述具有全局上下文信息的外观特征和运动特征进行连接,得到最终特征,并将其与所述问题表示作为预测模块的输入,进行模型训练操作,得到训练好的答案预测模型;
从所述测试集获取目标视频和问题,重复所述预处理操作,根据问题类型将处理结果输入所述训练好的答案预测模型,输出需要获取的视频问答答案。
2.如权利要求1所述的一种全局与局部互补的双向注意的视频问答方法,其特征在于,所述将视频问答数据集划分为训练集与测试集,从训练集中获取原始视频、相应的文本问题和答案标识,具体为:
采用大型数据集TGIF-QA作为视频问答数据集,将其划分为训练集与测试集;
数据集由72000个动画gif中收集到的165000个问题-答案对组成,包含计数、动作、状态转换和帧问答四种类型的任务;
从划分的训练集中提取原始视频、相应的文本问题和答案标识。
3.如权利要求2所述的一种全局与局部互补的双向注意的视频问答方法,其特征在于,所述对所述原始视频、所述文本问题进行预处理操作,获得视频的外观特征表示、运动特征表示和问题表示,具体为:
对所述原始视频均匀采样为128帧,并均匀分割为8个片段,每个片段包含16帧;
将获得的每个片段输入预训练的特征提取器ResNeXt,输出片段级运动向量Fm,将获得的每个帧输入预训练的特征提取器ResNet,输出帧级外观特征向量Fa
将运动向量Fm和外观特征向量Fa输入双向循环网络BiLSTM,将正向和反向的长短词记忆模型LSTM的输出隐藏状态连接,并在时间维度上对齐两种特征,获得运动特征表示Vm和外观特征表示Va
利用预训练的GloVe模型将所述问题表示嵌入到300维的向量中,将与上下文无关的嵌入向量输入双向循环网络BiLSTM,然后将正向和反向LSTM的输出隐藏状态连接,获得问题表示q。
4.如权利要求3所述的一种全局与局部互补的双向注意的视频问答方法,其特征在于,所述将所述问题表示进行平铺处理,获得平铺张量,将其与所述外观特征表示和所述运动特征表示对齐,形成特征表示组合,具体为:
将所述问题表示q复制为128份并拼接得到平铺张量qtile
将平铺张量qtile的维度与所述外观特征表示Va和所述运动特征表示Vm进行对齐,形成特征表示组合(Va,qtile)和(Vm,qtile)。
5.如权利要求4所述的一种全局与局部互补的双向注意的视频问答方法,其特征在于,所述利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块,对所述特征表示组合进行处理,分别获得具有全局与局部上下文信息的外观特征和运动特征,具体为:
利用多头自注意力层获取所述特征表示组合的全局上下文信息,利用一维卷积层获取所述特征表示组合的局部上下文信息;
以不同的次序堆叠多头自注意力层和一维卷积层,构建先全局后局部和先局部后全局的两种上下文信息获取子模块,连接子模块的输出,构成全局与局部双向注意模块;
将所述特征表示组合(Va,qtile)和(Vm,qtile)输入全局与局部双向注意模块,输出具有全局与局部上下文信息的外观特征和运动特征
6.如权利要求4所述的一种全局与局部互补的双向注意的视频问答方法,其特征在于,所述对所述特征表示组合分别处理,构建无向全连接的外观图和运动图,利用图注意机制进行聚合操作,获得具有全局上下文信息的外观特征和运动特征,具体为:
将所述特征表示组合(Va,qtile)和(Vm,qtile)分别拼接为[Va,qtile]和
[Vm,qtile],作为无向全连接外观图和运动图的节点;
计算顶点间的相关性αi,j,作为连接两节点的边的权值,计算公式如下:
其中,σ(·)是一个非线性函数如LeakyReLU,a是前馈神经网络的可学习参数,Wk是共享的可学习矩阵,是节点的邻接节点的集合,[·||·]表示连接操作;
利用邻接节点和边的加权聚合操作,更新节点的特征,分别获得具有全局上下文信息的外观特征和运动特征
7.如权利要求5或6所述的一种全局与局部互补的双向注意的视频问答方法,其特征在于,所述构建答案预测模块,将所述具有全局与局部上下文信息的外观特征和运动特征,以及所述具有全局上下文信息的外观特征和运动特征进行连接,得到最终特征,并将其与所述问题表示作为预测模块的输入,进行模型训练操作,得到训练好的答案预测模型,具体为:
将所述具有全局与局部上下文信息的外观特征和运动特征以及具有全局上下文信息的外观特征和运动特征进行连接,得到最终特征Vf,将其与所述问题表示q作为答案预测模块的输入;
对于帧问答任务,根据多分类问题的方法计算标签概率p,使用交叉熵损失完成该任务;
对于计数任务,利用一个线性回归函数处理后进行舍入操作,使用均方差损失来完成该任务;
对于动作任务和状态转换任务,根据每组问题与候选答案的联合表示得到一个实值得分,通过正确答案得分sp和错误答案得分sn的铰链损失max(0,1+sn-sp)进行优化。
8.一种全局与局部互补的双向注意的视频问答系统,其特征在于,所述系统包括:
数据集处理单元,用于将视频问答数据集划分为训练集与测试集,从训练集中获取原始视频、相应的文本问题和答案标识;对所述原始视频、所述文本问题进行预处理操作,获得视频的外观特征表示、运动特征表示和问题表示;将所述问题表示进行平铺处理,获得平铺张量,将其与所述外观特征表示和所述运动特征表示对齐,形成特征表示组合;
特征获取单元,用于利用多头注意力层和一维卷积层堆叠组成的全局与局部双向注意模块,对所述特征表示组合进行处理,分别获得具有全局与局部上下文信息的外观特征和运动特征;对所述特征表示组合分别处理,构建无向全连接的外观图和运动图,利用图注意机制进行聚合操作,获得具有全局上下文信息的外观特征和运动特征;
模型训练与预测单元,用于构建答案预测模块,将所述具有全局与局部上下文信息的外观特征和运动特征,以及所述具有全局上下文信息的外观特征和运动特征进行连接,得到最终特征,并将其与所述问题表示作为预测模块的输入,进行模型训练操作,得到训练好的答案预测模型;从所述测试集获取目标视频和问题,重复所述预处理操作,根据问题类型将处理结果输入所述训练好的答案预测模型,输出需要获取的视频问答答案。
CN202210393827.8A 2022-04-15 2022-04-15 一种全局与局部互补的双向注意的视频问答方法与系统 Active CN114911930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210393827.8A CN114911930B (zh) 2022-04-15 2022-04-15 一种全局与局部互补的双向注意的视频问答方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210393827.8A CN114911930B (zh) 2022-04-15 2022-04-15 一种全局与局部互补的双向注意的视频问答方法与系统

Publications (2)

Publication Number Publication Date
CN114911930A CN114911930A (zh) 2022-08-16
CN114911930B true CN114911930B (zh) 2024-09-13

Family

ID=82764046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210393827.8A Active CN114911930B (zh) 2022-04-15 2022-04-15 一种全局与局部互补的双向注意的视频问答方法与系统

Country Status (1)

Country Link
CN (1) CN114911930B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115695950B (zh) * 2023-01-04 2023-03-28 石家庄铁道大学 一种基于内容感知的视频摘要生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN113010712A (zh) * 2021-03-04 2021-06-22 天津大学 一种基于多图融合的视觉问答方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288438B2 (en) * 2019-11-15 2022-03-29 Salesforce.Com, Inc. Bi-directional spatial-temporal reasoning for video-grounded dialogues
US11423304B2 (en) * 2020-01-15 2022-08-23 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN113536952B (zh) * 2021-06-22 2023-04-21 电子科技大学 一种基于动作捕捉的注意力网络的视频问答方法
CN114020891A (zh) * 2021-11-05 2022-02-08 中山大学 双通道语义定位多粒度注意互增强的视频问答方法与系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN113010712A (zh) * 2021-03-04 2021-06-22 天津大学 一种基于多图融合的视觉问答方法

Also Published As

Publication number Publication date
CN114911930A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN113762322B (zh) 基于多模态表示的视频分类方法、装置和设备及存储介质
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN115544264B (zh) 知识驱动的桥梁建造数字孪生场景智能构建方法及系统
CN114020891A (zh) 双通道语义定位多粒度注意互增强的视频问答方法与系统
WO2023077819A1 (zh) 数据处理系统及方法、装置、设备、存储介质、计算机程序、计算机程序产品
CN112036276A (zh) 一种人工智能视频问答方法
CN114896450B (zh) 一种基于深度学习的视频时刻检索方法与系统
CN114969298A (zh) 一种基于跨模态异质图神经网络的视频问答方法
CN114428866A (zh) 一种基于面向对象的双流注意力网络的视频问答方法
CN113705218A (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN114911930B (zh) 一种全局与局部互补的双向注意的视频问答方法与系统
CN117235216A (zh) 一种基于异构知识融合的知识推理方法
CN115712709A (zh) 基于多关系图模型的多模态对话问答生成方法
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及系统
CN113705402A (zh) 视频行为预测方法、系统、电子设备及存储介质
CN115599954B (zh) 一种基于场景图推理的视频问答方法
CN116663523A (zh) 多角度增强网络的语义文本相似度计算方法
CN116152199A (zh) 基于分割图引导与正则约束的手部姿势与形状估计方法
CN113010712B (zh) 一种基于多图融合的视觉问答方法
Luo et al. Temporal-aware mechanism with bidirectional complementarity for video q&a
CN112256858B (zh) 融合问题模式和答题结果的双卷积知识追踪方法及系统
CN115130461A (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN116932788A (zh) 封面图像提取方法、装置、设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant