CN115618061A - 一种语义对齐的视频问答方法 - Google Patents
一种语义对齐的视频问答方法 Download PDFInfo
- Publication number
- CN115618061A CN115618061A CN202211502821.6A CN202211502821A CN115618061A CN 115618061 A CN115618061 A CN 115618061A CN 202211502821 A CN202211502821 A CN 202211502821A CN 115618061 A CN115618061 A CN 115618061A
- Authority
- CN
- China
- Prior art keywords
- features
- visual
- semantic
- global
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种语义对齐的视频问答方法,具体步骤为:通过进行问题语义解析及编码,获得问题语义特征,对问题语义特征进行融合,获得问题的全局特征;通过语义视觉选择模块和问题条件视觉模块进行视频解析及编码,融合语义视觉特征和问题条件视觉特征获得视觉全局特征;通过对齐问题解析出的语义的跨模态特征缩小语义鸿沟;基于问题的全局特征和视觉全局特征进行解码推理答案。本发明使用跨模态注意力机制生成与问题解析语义一致的视觉信息和问题条件视觉信息,使用对比学习缩小跨模态语义鸿沟,并融合问题解析出的语义视觉特征和问题条件视觉特征,丰富视觉特征搜索空间,根据问题特征和视觉特征解码视频问答的答案,提高了视频问答的准确率。
Description
技术领域
本发明属于计算机视觉和语言处理技术领域,尤其涉及一种语义对齐的视频问答方法。
背景技术
视频问答在人机协同和人机交互中发挥不可或缺的作用,视频问答的发展促进了交互式人工智能的发展。作为人机交互的重要部分,视频问答为实现智能家居、个人智能助手的落地以及全面智能化的生活提供了重要的技术支持。例如,使用自然语言与智能问答机器人交互,智能问答机器人通过观察动态视觉世界给予反馈,加快工作效率。同时,视频问答在视频监控和视频内容查找中也有重要的应用。
视频问答是视觉语言任务中最流行的一种,它旨在打破视觉特征和语言语义的鸿沟以实现人机交互。视频问答的研究可以三个方面:一是基于注意力机制的方法,它使用跨注意力机制将问题特征融合到视频特征中,使视频特征带有问题条件。二是基于图结构的方法,它使用图网络结构对视觉元素和语言元素之间的交互进行建模。三是基于分层结构的方法,它使用不同粒度的视觉元素进行推理。第一种方法可以优化了视觉特征,但其不能学习语言以及视觉内部的交互。第二种方法优化了语言以及视觉信息,但不能很好地缩小语言和视觉特征的歧义。第三种方法优化了视觉信息,使视觉信息更加丰富,但语言和视觉特征的歧义仍然不能很好地缩小它们之间的鸿沟。
现有的技术方案存在以下缺点:(1)基于注意力机制的方法不能有效地捕捉模态内的交互。(2)基于图结构模型的方法并没有模态间的交互,不能有效地缩小模态间的鸿沟。(3)基于分层结构模型的方法使用池化的方法构建视觉金字塔,虽然提取到丰富的视觉特征,但这些视觉特征是基于时间长短而来的复杂度,可以提供给问题更加丰富的搜索空间,但仍无法从根本上缩小语言和视觉特征之间的鸿沟。
综上,为了缩小语言和视觉之间的鸿沟,实现更准确的视频问答,本发明提出一种语义对齐的视频问答方法。
发明内容
为解决上述问题,本发明提出了一种语义对齐的视频问答方法,通过对齐问题解析出的语义的语言和视觉特征,缩小跨模态鸿沟,并融合解析语义视觉特征和问题条件视觉特征,丰富视觉特征搜索空间,最后根据问题特征和视觉特征解码视频问答的答案,提高了视频问答的准确率。
为实现上述目的,本发明提供了一种语义对齐的视频问答方法,包括以下步骤:
通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。
优选的,通过语义分析工具进行问题语义解析的方法包括:
使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。
优选的,对问题进行编码的方法包括:
将问题的所有单词表示为用预训练的Golve向量初始化的300维词嵌入;
将所述300维词嵌入送入双向LSTM中获取单词表征;
基于所述单词表征,使用注意力池化,获取问题的全局编码。
优选的,获得问题解析语义特征的方法包括:
根据问题语义解析的结构,对动作语义和对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征和问题对象语义特征。
优选的,对所述问题解析语义特征进行融合,获得问题全局特征的方法包括:
将问题动作语义特征和问题对象语义特征进行拼接,使用注意力池化操作并与问题全局特征进行加法操作得到关注解析语义的问题全局特征。
优选的,获得视觉全局特征的方法包括:
获取视频的外观特征、运动特征和物体特征;
对所述外观特征、运动特征和物体特征分别使用解析语义视觉选择模块进行视频语义解析,获得视觉语义特征;
基于所述外观特征、所述运动特征和所述物体特征,使用多头跨注意力模块,生成问题条件视觉特征;
基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征。
优选的,基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征的方法包括:
将问题条件物体特征重塑,对重塑后每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征;
使用加法操作融合问题条件外观特征、问题条件运动特征和剪辑级别的物体特征;
使用拼接操作融合所述解析语义视觉特征;
基于融合的问题条件视觉特征和融合的解析语义视觉特征,使用两个注意力池化操作分别获取各自的全局特征并进行加法操作,得到视觉全局特征。
优选的,对齐解析语义的语言特征和对应的视觉特征的方法包括:
使用余弦相似性衡量不同模态的相似性;
将语义相同的跨模态特征作为正样本对,将语义不同的跨模态特征作为负样本对,使用对比学习优化解析语义跨模态特征以达到优化问题全局特征和视觉全局特征的目的。
优选的,将所述问题全局特征和所述视觉全局特征进行融合送入答案解码器推理答案的方法包括:
对于开放式问答:将所述问题解析语义的全局特征和所述视觉全局特征进行拼接,并送入到一个带有softmax的全连接层进行分类,最小化交叉熵损失优化模型;
对于多选问答:将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔优化模型。
与现有技术相比,本发明具有如下优点和技术效果:
本发明提供一种语义对齐的视频问答的方法,使用问题解析的动作和对象语义指导生成对应的视觉语义特征,使用对比学习对齐解析语义跨模态特征,缩小语言视觉语义鸿沟;构建问题条件视觉特征和解析语义视觉特征并将它们与问题特征融合在一起指导答案的推理,为解码器提供丰富的特征。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的一种语义对齐的视频问答方法流程示意图;
图2为本发明实施例的一种语义对齐的视频问答系统结构示意图;
图3为本发明实施例的问题语义解析示意图;
图4为本发明实施例的对齐文本和视觉动作语义特征以及对象语义特征的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,本发明提供了一种语义对齐的视频问答方法,包括以下步骤:
S101:通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
S102:通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
S103:通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
S104:将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。
S101的具体实施过程为:使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。使用预训练的Golve向量初始化词嵌入,使用双向LSTM编码。根据解析语义索引使用平均池化操作获取解析语义特征,将解析语义特征拼接并使用池化操作与问题池化全局特征进行加法操作获得关注解析语义的问题全局特征。
S102的具体实施过程为:对每个视频平均采样个片段。使用预训练的ResNeXt-
101提取片段的运动特征,使用预训练的ResNet-101提取片段中间帧的外观特征,使用
Faster R-CNN获取片段中间帧的感兴趣区域物体特征。
使用两个线性层将视频的外观特征和运动特征转换到维空间,对于帧的感兴趣
区域,将其特征和其对应的边框位置信息和时间位置信息进行拼接,并使用带有ELU激活的
线性层将其转换到维空间。通过与问题全局特征的相关性聚集外观特征获得外观特征的
全局特征。同样地,可以得到运动特征的全局特征。对于物体特征,将其维度重塑,并使用同
样的方法得到物体全局特征。对于外观特征的动作语义和对象语义特征,使用跨注意力机
制进行获取。同样地,可以得到关于运动特征的动作语义特征、对象语义特征和关于物体特
征的动作语义特征、对象语义特征。然后使用层归一化和加法操作将外观特征、运动特征和
物体特征融合到一起。
使用多头跨注意力模块生成问题条件视觉特征。
将问题条件物体特征重塑,然后对每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征。使用加法操作融合问题条件外观特征、运动特征和池化的物体特征。对于视觉语义特征的融合,使用拼接操作。最后,使用两个注意力池化操作分别获取各自的全局特征,并将两种全局特征进行加法操作,得到最终的视觉全局特征。
S103的具体实施过程为:将动作语义和对象语义拼接为整个特征对,将样本中语义一致的视觉文本特征对当作正样本对,将样本内语义不同的视觉文本特征对作为负样本对,使用对比损失的目的是在特征空间中,将同一语义的问题特征和视觉特征拉近,不同语义的不同模态特征拉远,以此缩小跨模态鸿沟。
S104的具体实施过程为:对于开放式问答,将问题全局特征和视觉全局特征进行拼接,送入到一个带有softmax的全连接层进行分类。
对于多选问答,将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类。
模型学习:对于开放式问答,采用最小化交叉熵损失优化模型。对于多选问答,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔。最后,将对比学习损失和经验学习损失进行加权操作。
如图2所示,本发明还提供了一种语义对齐的视频问答系统,主要可以分为四个部分:问题语义解析及编码模块、问题条件的视频解析及编码模块、解析语义的语言视觉特征对齐模块和答案解码器,
所述问题语义解析及编码模块用于通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
所述问题条件的视频解析及编码模块用于通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
所述问题解析语义的语言视觉特征对齐模块用于通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征去优化问题和视觉的全局特征;
所述答案解码器用于将问题全局特征和视觉全局特征进行融合送入答案解码器推理答案。
在本实施例中,关于问题语义解析及编码部分:问题语义解析:使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分,如图3所示。
问题编码。首先将问题的所有单词表示为用预训练的Golve向量初始化的300维词
嵌入。然后将其送入双向LSTM中获取问题单词特征 ,其中是问题的单词长度,为512。使用注意力池化操作获取问题的全局编码,其中,,为可学习参数。同时,根据问题语义解析的结构,对动作语义和
对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征和问题对
象语义特征,其中和为问题中动作的个数和对象的个数。具体的,将问题中
动作的个数设置为2,对象的个数设置为5。如果解析出来的动作或对象个数不足则填充0,
若出现超过设置个数的情况,则根据特征大小选择。
融合问题特征。将问题动作语义特征和问题对象语义特征进行拼接的问题特征,为问题动作语义特征,为问题对象语义特征,并使用注
意力池化操作并与问题全局特征相加得到关注问题解析语义的全局特征,为问题全局特征。
在本实施例中,关于问题条件的视频解析及编码部分:特征提取:对每个视频平均
采样长度为的个片段,其中为片段长度,,为片段个数,。使用在Kinect数
据集预训练的ResNeXt-101提取片段的运动特征,为第个片段的运动特
征,,使用预训练的ResNet-101提取片段中间帧的外观特征,为第
个片段中间帧的外观特征,。为了获取粒度更细的视觉特征,使用Faster R-CNN获
取片段中间帧的个感兴趣区域物体特征,为第个片段中间帧第个感
兴趣区域特征,,取。
视频语义解析。首先,使用两个线性层将视频的外观特征和运动特征转换到维
空间,。对于帧的感兴趣区域,将其特征和其对应的边框位置信息和时间位置信息进
行拼接,并使用带有ELU激活的线性层将其转换到维空间。其次,根据问题解析的特征生
成视觉相对应的特征。具体地,对于视觉外观特征的全局特征,计算每个片段的外观特征与
问题全局特征的相关性,为片段中间帧的外观特征,然后根据相关性
聚集外观特征。同样地,可以得到运动特征的全局特征。对于物体特征,将其维
度重塑为,并使用同样的方法得到物体全局特征,为物体特征与问题全局特征的相关性。对于外观特征的
动作语义和对象语义特征,使用跨注意力机制进行获取。具体地,将问题的动作语义和对象
语义作为查询,外观特征作为键和值获得外观特征的动作语义特征,其公式化为,为问题动作语义特征,为视频特征提取的外
观特征。同样地,获得外观特征的对象语义特征。
同样地,可以得到关于运动特征的动作语义特征、运动特征的对象语义特征和关于
物体特征的动作语义特征、对象语义特征。然后使用层归一化和加法操作将外观特
征、运动特征和物体特征融合到一起,即,表示关注问题全局特征的
视频特征,。
使用多头跨注意力模块生成问题条件视觉特征。具体的,分别生成问题条件外观
特征、运动特征和物体特征。对外观特征,我们首先使用多头跨注意力模块生成视频与外观
特征对应的问题特征,即,其中,为可学习参数,
是第个注意力头的可学习参数,注意力头的个数。然后使用残差连接得到问题条件外
观特征。对运动特征和重塑后的物体特征进行同样的操作可以得到问题条
件运动特征和问题条件物体特征。
融合视觉特征。将问题条件物体特征重塑为,然后对每一帧的物体特征
使用注意力池化操作得到剪辑级别的物体特征,是第k个片段的问
题条件物体特征。使用加法操作融合问题条件外观特征、运动特征和池化的物体特征获得
问题条件视觉特征。对于视觉语义特征的融合,使用拼接操作获得视觉语义
特征,,为视频动作语义特征,为视频对象语义特
征。最后,使用两个注意力池化操作分别获取各自的全局特征,并将两种全局特征进行加法
操作,得到最终的问题条件视觉特征和视觉语义特征融合的视觉全局特征,为视觉语义特征。
在本实施例中,关于使用对比学习对齐问题解析语义语言特征和对应的视觉特征
部分:将动作语义和对象语义拼接为整个特征对,将样本中语义一致的视觉文本特征对当
作正样本对,将样本内语义不同的视觉文本特征对作为负样本对,如图4所示,表示同样语
义的特征对为正样本对,具体地,比如表示动作1的语言特征和视觉特征为正样本
对,表示不同语义的特征对为负样本对,比如为负样本集,分别为表示动作2,对象1,对象2,对象3的视觉特征。使用对比损失的目的
是在特征空间中,将同一语义的问题特征和视觉特征拉近,不同语义的不同模态特征拉远,
以此缩小跨模态鸿沟。对比损失为 ,其中,,使用余弦相似性衡
量跨模态特征的相似性,是预定义的间隔,对应S(Q+, V-)的上标表示在样本内语义
配对/非配对的正/负样本。
在本实施例中,关于使用答案解码器解码答案部分:
对于多选问答,将每个候选答案与相应的问题拼接起来得到获选集,分别获取获
选集中的文本全局特征,并共享视觉全局特征通过哈达玛积将文本全局特征和视觉
全局特征融合,采用带有softmax的全连接层进行分类,即,其中均为可学习参数。
模型学习。对于开放式问答,最小化交叉熵损失优化模型:,其
中是第个样本的预测分数,如果答案指数与第个样本的基本真理答案相对应,,
否则为0。对于多选问答,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔:,其中是多选问答的选择个数,是正样本对,是负样
本对。最后,将对比学习损失和经验学习损失进行加权操作,最终的损失表示为,其中,为超参数,具体地,我们将其设置为1。
本发明通过语义解析工具解析问题,使用跨模态注意力机制生成与问题解析语义一致的视觉信息和问题条件视觉信息,使用对比学习缩小跨模态语义鸿沟,并融合问题解析出的语义视觉特征和问题条件视觉特征,丰富视觉特征搜索空间,根据问题特征和视觉特征解码视频问答的答案,提高了视频问答的准确率。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (9)
1.一种语义对齐的视频问答方法,其特征在于,包括以下步骤:
通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。
2.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,通过语义分析工具进行问题语义解析的方法包括:
使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。
3.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对问题进行编码的方法包括:
将问题的所有单词表示为用预训练的Golve向量初始化的300维词嵌入;
将所述300维词嵌入送入双向LSTM中获取单词表征;
基于所述单词表征,使用注意力池化,获取问题的全局编码。
4.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,获得问题解析语义特征的方法包括:
根据问题语义解析的结构,对动作语义和对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征和问题对象语义特征。
5.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对所述问题解析语义特征进行融合,获得问题全局特征的方法包括:
将问题动作语义特征和问题对象语义特征进行拼接,使用注意力池化操作并与问题全局特征进行加法操作得到关注解析语义的问题全局特征。
6.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,获得视觉全局特征的方法包括:
获取视频的外观特征、运动特征和物体特征;
对所述外观特征、运动特征和物体特征分别使用解析语义视觉选择模块进行视频语义解析,获得视觉语义特征;
基于所述外观特征、所述运动特征和所述物体特征,使用多头跨注意力模块,生成问题条件视觉特征;
基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征。
7.根据权利要求6所述的语义对齐的视频问答方法,其特征在于,基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征的方法包括:
将问题条件物体特征重塑,对重塑后每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征;
使用加法操作融合问题条件外观特征、问题条件运动特征和剪辑级别的物体特征;
使用拼接操作融合所述解析语义视觉特征;
基于融合的问题条件视觉特征和融合的解析语义视觉特征,使用两个注意力池化操作分别获取各自的全局特征并进行加法操作,得到视觉全局特征。
8.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对齐解析语义的语言特征和对应的视觉特征的方法包括:
使用余弦相似性衡量不同模态的相似性;
将语义相同的跨模态特征作为正样本对,将语义不同的跨模态特征作为负样本对,使用对比学习优化解析语义跨模态特征以达到优化问题全局特征和视觉全局特征的目的。
9.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,将所述问题全局特征和所述视觉全局特征进行融合送入答案解码器推理答案的方法包括:
对于开放式问答:将所述问题解析语义的全局特征和所述视觉全局特征进行拼接,并送入到一个带有softmax的全连接层进行分类,最小化交叉熵损失优化模型;
对于多选问答:将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔优化模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211502821.6A CN115618061B (zh) | 2022-11-29 | 2022-11-29 | 一种语义对齐的视频问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211502821.6A CN115618061B (zh) | 2022-11-29 | 2022-11-29 | 一种语义对齐的视频问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618061A true CN115618061A (zh) | 2023-01-17 |
CN115618061B CN115618061B (zh) | 2023-03-10 |
Family
ID=84880634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211502821.6A Active CN115618061B (zh) | 2022-11-29 | 2022-11-29 | 一种语义对齐的视频问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115618061B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170357720A1 (en) * | 2016-06-10 | 2017-12-14 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US20180189385A1 (en) * | 2016-12-29 | 2018-07-05 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for locating an answer based on question and answer |
EP3709207A1 (en) * | 2019-03-12 | 2020-09-16 | Beijing Baidu Netcom Science and Technology Co., Ltd. | Visual question answering model, electronic device and storage medium |
CN111949824A (zh) * | 2020-07-08 | 2020-11-17 | 合肥工业大学 | 基于语义对齐的视觉问答方法和系统、存储介质 |
CN112527993A (zh) * | 2020-12-17 | 2021-03-19 | 浙江财经大学东方学院 | 一种跨媒体层次化深度视频问答推理框架 |
EP3819790A2 (en) * | 2020-06-30 | 2021-05-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for visual question answering, computer device and medium |
CN114663677A (zh) * | 2022-04-08 | 2022-06-24 | 杭州电子科技大学 | 一种基于跨模态预训练特征增强的视觉问答方法 |
CN114969298A (zh) * | 2022-06-15 | 2022-08-30 | 茅台学院 | 一种基于跨模态异质图神经网络的视频问答方法 |
CN115017358A (zh) * | 2022-08-09 | 2022-09-06 | 南京理工大学 | 一种多模态交互的跨模态检索方法及系统 |
US20220357177A1 (en) * | 2021-05-10 | 2022-11-10 | André SKUPIN | Knowledge Space Analytics |
-
2022
- 2022-11-29 CN CN202211502821.6A patent/CN115618061B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170357720A1 (en) * | 2016-06-10 | 2017-12-14 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
US20180189385A1 (en) * | 2016-12-29 | 2018-07-05 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for locating an answer based on question and answer |
EP3709207A1 (en) * | 2019-03-12 | 2020-09-16 | Beijing Baidu Netcom Science and Technology Co., Ltd. | Visual question answering model, electronic device and storage medium |
EP3819790A2 (en) * | 2020-06-30 | 2021-05-12 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method and apparatus for visual question answering, computer device and medium |
CN111949824A (zh) * | 2020-07-08 | 2020-11-17 | 合肥工业大学 | 基于语义对齐的视觉问答方法和系统、存储介质 |
CN112527993A (zh) * | 2020-12-17 | 2021-03-19 | 浙江财经大学东方学院 | 一种跨媒体层次化深度视频问答推理框架 |
US20220357177A1 (en) * | 2021-05-10 | 2022-11-10 | André SKUPIN | Knowledge Space Analytics |
CN114663677A (zh) * | 2022-04-08 | 2022-06-24 | 杭州电子科技大学 | 一种基于跨模态预训练特征增强的视觉问答方法 |
CN114969298A (zh) * | 2022-06-15 | 2022-08-30 | 茅台学院 | 一种基于跨模态异质图神经网络的视频问答方法 |
CN115017358A (zh) * | 2022-08-09 | 2022-09-06 | 南京理工大学 | 一种多模态交互的跨模态检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115618061B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159223A (zh) | 一种基于结构化嵌入的交互式代码搜索方法及装置 | |
CN113157965B (zh) | 音频可视化模型训练及音频可视化方法、装置及设备 | |
CN113515951B (zh) | 基于知识增强注意力网络和组级语义的故事描述生成方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN112256847B (zh) | 融合事实文本的知识库问答方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113220890A (zh) | 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法 | |
CN114020891A (zh) | 双通道语义定位多粒度注意互增强的视频问答方法与系统 | |
CN114048351A (zh) | 一种基于时空关系增强的跨模态文本-视频检索方法 | |
CN114549317A (zh) | 一种基于时空超分辨率的视频描述方法及电子设备 | |
Xu et al. | A comprehensive survey of automated audio captioning | |
Chaudhary et al. | Signnet ii: A transformer-based two-way sign language translation model | |
CN117292146A (zh) | 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法 | |
CN115618061B (zh) | 一种语义对齐的视频问答方法 | |
CN116385946A (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN114239575B (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN115994317A (zh) | 基于深度对比学习的不完备多视图多标签分类方法和系统 | |
Ji et al. | Blog text quality assessment using a 3D CNN-based statistical framework | |
CN114972907A (zh) | 基于强化学习和对比学习的图像语义理解及文本生成 | |
CN114677631A (zh) | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 | |
Xue et al. | A multi-modal fusion framework for continuous sign language recognition based on multi-layer self-attention mechanism | |
CN116561350B (zh) | 一种资源生成方法及相关装置 | |
CN115983280B (zh) | 面向不确定模态缺失的多模态情感分析方法及系统 | |
CN116958997B (zh) | 一种基于异质图神经网络的图文摘要方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |