CN115618061A - 一种语义对齐的视频问答方法 - Google Patents

一种语义对齐的视频问答方法 Download PDF

Info

Publication number
CN115618061A
CN115618061A CN202211502821.6A CN202211502821A CN115618061A CN 115618061 A CN115618061 A CN 115618061A CN 202211502821 A CN202211502821 A CN 202211502821A CN 115618061 A CN115618061 A CN 115618061A
Authority
CN
China
Prior art keywords
features
visual
semantic
global
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211502821.6A
Other languages
English (en)
Other versions
CN115618061B (zh
Inventor
刘文印
钟经谋
梁达勇
陈俊洪
西木
林大润
黄可思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202211502821.6A priority Critical patent/CN115618061B/zh
Publication of CN115618061A publication Critical patent/CN115618061A/zh
Application granted granted Critical
Publication of CN115618061B publication Critical patent/CN115618061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种语义对齐的视频问答方法,具体步骤为:通过进行问题语义解析及编码,获得问题语义特征,对问题语义特征进行融合,获得问题的全局特征;通过语义视觉选择模块和问题条件视觉模块进行视频解析及编码,融合语义视觉特征和问题条件视觉特征获得视觉全局特征;通过对齐问题解析出的语义的跨模态特征缩小语义鸿沟;基于问题的全局特征和视觉全局特征进行解码推理答案。本发明使用跨模态注意力机制生成与问题解析语义一致的视觉信息和问题条件视觉信息,使用对比学习缩小跨模态语义鸿沟,并融合问题解析出的语义视觉特征和问题条件视觉特征,丰富视觉特征搜索空间,根据问题特征和视觉特征解码视频问答的答案,提高了视频问答的准确率。

Description

一种语义对齐的视频问答方法
技术领域
本发明属于计算机视觉和语言处理技术领域,尤其涉及一种语义对齐的视频问答方法。
背景技术
视频问答在人机协同和人机交互中发挥不可或缺的作用,视频问答的发展促进了交互式人工智能的发展。作为人机交互的重要部分,视频问答为实现智能家居、个人智能助手的落地以及全面智能化的生活提供了重要的技术支持。例如,使用自然语言与智能问答机器人交互,智能问答机器人通过观察动态视觉世界给予反馈,加快工作效率。同时,视频问答在视频监控和视频内容查找中也有重要的应用。
视频问答是视觉语言任务中最流行的一种,它旨在打破视觉特征和语言语义的鸿沟以实现人机交互。视频问答的研究可以三个方面:一是基于注意力机制的方法,它使用跨注意力机制将问题特征融合到视频特征中,使视频特征带有问题条件。二是基于图结构的方法,它使用图网络结构对视觉元素和语言元素之间的交互进行建模。三是基于分层结构的方法,它使用不同粒度的视觉元素进行推理。第一种方法可以优化了视觉特征,但其不能学习语言以及视觉内部的交互。第二种方法优化了语言以及视觉信息,但不能很好地缩小语言和视觉特征的歧义。第三种方法优化了视觉信息,使视觉信息更加丰富,但语言和视觉特征的歧义仍然不能很好地缩小它们之间的鸿沟。
现有的技术方案存在以下缺点:(1)基于注意力机制的方法不能有效地捕捉模态内的交互。(2)基于图结构模型的方法并没有模态间的交互,不能有效地缩小模态间的鸿沟。(3)基于分层结构模型的方法使用池化的方法构建视觉金字塔,虽然提取到丰富的视觉特征,但这些视觉特征是基于时间长短而来的复杂度,可以提供给问题更加丰富的搜索空间,但仍无法从根本上缩小语言和视觉特征之间的鸿沟。
综上,为了缩小语言和视觉之间的鸿沟,实现更准确的视频问答,本发明提出一种语义对齐的视频问答方法。
发明内容
为解决上述问题,本发明提出了一种语义对齐的视频问答方法,通过对齐问题解析出的语义的语言和视觉特征,缩小跨模态鸿沟,并融合解析语义视觉特征和问题条件视觉特征,丰富视觉特征搜索空间,最后根据问题特征和视觉特征解码视频问答的答案,提高了视频问答的准确率。
为实现上述目的,本发明提供了一种语义对齐的视频问答方法,包括以下步骤:
通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。
优选的,通过语义分析工具进行问题语义解析的方法包括:
使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。
优选的,对问题进行编码的方法包括:
将问题的所有单词表示为用预训练的Golve向量初始化的300维词嵌入;
将所述300维词嵌入送入双向LSTM中获取单词表征;
基于所述单词表征,使用注意力池化,获取问题的全局编码。
优选的,获得问题解析语义特征的方法包括:
根据问题语义解析的结构,对动作语义和对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征和问题对象语义特征。
优选的,对所述问题解析语义特征进行融合,获得问题全局特征的方法包括:
将问题动作语义特征和问题对象语义特征进行拼接,使用注意力池化操作并与问题全局特征进行加法操作得到关注解析语义的问题全局特征。
优选的,获得视觉全局特征的方法包括:
获取视频的外观特征、运动特征和物体特征;
对所述外观特征、运动特征和物体特征分别使用解析语义视觉选择模块进行视频语义解析,获得视觉语义特征;
基于所述外观特征、所述运动特征和所述物体特征,使用多头跨注意力模块,生成问题条件视觉特征;
基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征。
优选的,基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征的方法包括:
将问题条件物体特征重塑,对重塑后每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征;
使用加法操作融合问题条件外观特征、问题条件运动特征和剪辑级别的物体特征;
使用拼接操作融合所述解析语义视觉特征;
基于融合的问题条件视觉特征和融合的解析语义视觉特征,使用两个注意力池化操作分别获取各自的全局特征并进行加法操作,得到视觉全局特征。
优选的,对齐解析语义的语言特征和对应的视觉特征的方法包括:
使用余弦相似性衡量不同模态的相似性;
将语义相同的跨模态特征作为正样本对,将语义不同的跨模态特征作为负样本对,使用对比学习优化解析语义跨模态特征以达到优化问题全局特征和视觉全局特征的目的。
优选的,将所述问题全局特征和所述视觉全局特征进行融合送入答案解码器推理答案的方法包括:
对于开放式问答:将所述问题解析语义的全局特征和所述视觉全局特征进行拼接,并送入到一个带有softmax的全连接层进行分类,最小化交叉熵损失优化模型;
对于多选问答:将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔优化模型。
与现有技术相比,本发明具有如下优点和技术效果:
本发明提供一种语义对齐的视频问答的方法,使用问题解析的动作和对象语义指导生成对应的视觉语义特征,使用对比学习对齐解析语义跨模态特征,缩小语言视觉语义鸿沟;构建问题条件视觉特征和解析语义视觉特征并将它们与问题特征融合在一起指导答案的推理,为解码器提供丰富的特征。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的一种语义对齐的视频问答方法流程示意图;
图2为本发明实施例的一种语义对齐的视频问答系统结构示意图;
图3为本发明实施例的问题语义解析示意图;
图4为本发明实施例的对齐文本和视觉动作语义特征以及对象语义特征的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,本发明提供了一种语义对齐的视频问答方法,包括以下步骤:
S101:通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
S102:通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
S103:通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
S104:将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。
S101的具体实施过程为:使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。使用预训练的Golve向量初始化词嵌入,使用双向LSTM编码。根据解析语义索引使用平均池化操作获取解析语义特征,将解析语义特征拼接并使用池化操作与问题池化全局特征进行加法操作获得关注解析语义的问题全局特征。
S102的具体实施过程为:对每个视频平均采样
Figure 895489DEST_PATH_IMAGE001
个片段。使用预训练的ResNeXt- 101提取片段的运动特征,使用预训练的ResNet-101提取片段中间帧的外观特征,使用 Faster R-CNN获取片段中间帧的感兴趣区域物体特征。
使用两个线性层将视频的外观特征和运动特征转换到
Figure 547050DEST_PATH_IMAGE002
维空间,对于帧的感兴趣 区域,将其特征和其对应的边框位置信息和时间位置信息进行拼接,并使用带有ELU激活的 线性层将其转换到
Figure 998891DEST_PATH_IMAGE002
维空间。通过与问题全局特征的相关性聚集外观特征获得外观特征的 全局特征。同样地,可以得到运动特征的全局特征。对于物体特征,将其维度重塑,并使用同 样的方法得到物体全局特征。对于外观特征的动作语义和对象语义特征,使用跨注意力机 制进行获取。同样地,可以得到关于运动特征的动作语义特征、对象语义特征和关于物体特 征的动作语义特征、对象语义特征。然后使用层归一化和加法操作将外观特征、运动特征和 物体特征融合到一起。
使用多头跨注意力模块生成问题条件视觉特征。
将问题条件物体特征重塑,然后对每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征。使用加法操作融合问题条件外观特征、运动特征和池化的物体特征。对于视觉语义特征的融合,使用拼接操作。最后,使用两个注意力池化操作分别获取各自的全局特征,并将两种全局特征进行加法操作,得到最终的视觉全局特征。
S103的具体实施过程为:将动作语义和对象语义拼接为整个特征对,将样本中语义一致的视觉文本特征对当作正样本对,将样本内语义不同的视觉文本特征对作为负样本对,使用对比损失的目的是在特征空间中,将同一语义的问题特征和视觉特征拉近,不同语义的不同模态特征拉远,以此缩小跨模态鸿沟。
S104的具体实施过程为:对于开放式问答,将问题全局特征和视觉全局特征进行拼接,送入到一个带有softmax的全连接层进行分类。
对于多选问答,将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类。
模型学习:对于开放式问答,采用最小化交叉熵损失优化模型。对于多选问答,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔。最后,将对比学习损失和经验学习损失进行加权操作。
如图2所示,本发明还提供了一种语义对齐的视频问答系统,主要可以分为四个部分:问题语义解析及编码模块、问题条件的视频解析及编码模块、解析语义的语言视觉特征对齐模块和答案解码器,
所述问题语义解析及编码模块用于通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
所述问题条件的视频解析及编码模块用于通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
所述问题解析语义的语言视觉特征对齐模块用于通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征去优化问题和视觉的全局特征;
所述答案解码器用于将问题全局特征和视觉全局特征进行融合送入答案解码器推理答案。
在本实施例中,关于问题语义解析及编码部分:问题语义解析:使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分,如图3所示。
问题编码。首先将问题的所有单词表示为用预训练的Golve向量初始化的300维词 嵌入。然后将其送入双向LSTM中获取问题单词特征
Figure 331784DEST_PATH_IMAGE003
,其中
Figure 83839DEST_PATH_IMAGE004
是问题的单词长度,
Figure 640722DEST_PATH_IMAGE005
为512。使用注意力池化操作获取问题的全局编码
Figure 376597DEST_PATH_IMAGE006
,其中
Figure 247601DEST_PATH_IMAGE007
Figure 650901DEST_PATH_IMAGE008
Figure 581947DEST_PATH_IMAGE009
为可学习参数。同时,根据问题语义解析的结构,对动作语义和 对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征
Figure 657047DEST_PATH_IMAGE010
和问题对 象语义特征
Figure 3846DEST_PATH_IMAGE011
,其中
Figure 933756DEST_PATH_IMAGE012
Figure 566862DEST_PATH_IMAGE013
为问题中动作的个数和对象的个数。具体的,将问题中 动作的个数设置为2,对象的个数设置为5。如果解析出来的动作或对象个数不足则填充0, 若出现超过设置个数的情况,则根据特征大小选择。
融合问题特征。将问题动作语义特征和问题对象语义特征进行拼接的问题特征
Figure 418275DEST_PATH_IMAGE014
Figure 631082DEST_PATH_IMAGE015
为问题动作语义特征,
Figure 681077DEST_PATH_IMAGE016
为问题对象语义特征,并使用注 意力池化操作并与问题全局特征相加得到关注问题解析语义的全局特征
Figure 422768DEST_PATH_IMAGE017
Figure 558214DEST_PATH_IMAGE018
为问题全局特征。
在本实施例中,关于问题条件的视频解析及编码部分:特征提取:对每个视频平均 采样长度为
Figure 574712DEST_PATH_IMAGE019
Figure 479214DEST_PATH_IMAGE020
个片段,其中
Figure 454123DEST_PATH_IMAGE019
为片段长度,
Figure 14549DEST_PATH_IMAGE021
Figure 303579DEST_PATH_IMAGE022
为片段个数,
Figure 531429DEST_PATH_IMAGE023
。使用在Kinect数 据集预训练的ResNeXt-101提取片段的运动特征
Figure 677240DEST_PATH_IMAGE024
Figure 52857DEST_PATH_IMAGE025
为第
Figure 411157DEST_PATH_IMAGE026
个片段的运动特 征,
Figure 555831DEST_PATH_IMAGE027
,使用预训练的ResNet-101提取片段中间帧的外观特征
Figure 606964DEST_PATH_IMAGE028
Figure 266615DEST_PATH_IMAGE029
为第
Figure 631868DEST_PATH_IMAGE026
个片段中间帧的外观特征,
Figure 365469DEST_PATH_IMAGE030
。为了获取粒度更细的视觉特征,使用Faster R-CNN获 取片段中间帧的
Figure 56345DEST_PATH_IMAGE031
个感兴趣区域物体特征
Figure 609817DEST_PATH_IMAGE032
Figure 841078DEST_PATH_IMAGE033
为第
Figure 429185DEST_PATH_IMAGE026
个片段中间帧第
Figure 759804DEST_PATH_IMAGE034
个感 兴趣区域特征,
Figure 597310DEST_PATH_IMAGE035
,取
Figure 835524DEST_PATH_IMAGE036
视频语义解析。首先,使用两个线性层将视频的外观特征和运动特征转换到
Figure 12559DEST_PATH_IMAGE005
维 空间,
Figure 451761DEST_PATH_IMAGE037
。对于帧的感兴趣区域,将其特征和其对应的边框位置信息和时间位置信息进 行拼接,并使用带有ELU激活的线性层将其转换到
Figure 245405DEST_PATH_IMAGE038
维空间。其次,根据问题解析的特征生 成视觉相对应的特征。具体地,对于视觉外观特征的全局特征,计算每个片段的外观特征与 问题全局特征的相关性
Figure 552890DEST_PATH_IMAGE039
Figure 177906DEST_PATH_IMAGE040
为片段中间帧的外观特征,然后根据相关性 聚集外观特征
Figure 115906DEST_PATH_IMAGE041
。同样地,可以得到运动特征的全局特征
Figure 662425DEST_PATH_IMAGE042
。对于物体特征,将其维 度重塑为
Figure 570338DEST_PATH_IMAGE043
,并使用同样的方法得到物体全局特征
Figure 721965DEST_PATH_IMAGE044
Figure 96446DEST_PATH_IMAGE045
为物体特征与问题全局特征的相关性。对于外观特征的 动作语义和对象语义特征,使用跨注意力机制进行获取。具体地,将问题的动作语义和对象 语义作为查询,外观特征作为键和值获得外观特征的动作语义特征,其公式化为
Figure 599102DEST_PATH_IMAGE046
Figure 513969DEST_PATH_IMAGE047
为问题动作语义特征,
Figure 520102DEST_PATH_IMAGE048
为视频特征提取的外 观特征。同样地,获得外观特征的对象语义特征
Figure 65484DEST_PATH_IMAGE049
。 同样地,可以得到关于运动特征的动作语义特征
Figure 852174DEST_PATH_IMAGE050
、运动特征的对象语义特征
Figure 39573DEST_PATH_IMAGE051
和关于 物体特征的动作语义特征
Figure 962530DEST_PATH_IMAGE052
、对象语义特征
Figure 413234DEST_PATH_IMAGE053
。然后使用层归一化和加法操作将外观特 征、运动特征和物体特征融合到一起,即
Figure 913920DEST_PATH_IMAGE054
Figure 373852DEST_PATH_IMAGE055
表示关注问题全局特征的 视频特征,
Figure 416894DEST_PATH_IMAGE056
使用多头跨注意力模块生成问题条件视觉特征。具体的,分别生成问题条件外观 特征、运动特征和物体特征。对外观特征,我们首先使用多头跨注意力模块生成视频与外观 特征对应的问题特征,即
Figure 38499DEST_PATH_IMAGE057
,其中
Figure 737465DEST_PATH_IMAGE058
Figure 532246DEST_PATH_IMAGE059
为可学习参数,
Figure 164215DEST_PATH_IMAGE060
是第
Figure 550197DEST_PATH_IMAGE061
个注意力头的可学习参数,注意力头的个数
Figure 267618DEST_PATH_IMAGE062
。然后使用残差连接得到问题条件外 观特征
Figure 600510DEST_PATH_IMAGE063
。对运动特征和重塑后的物体特征进行同样的操作可以得到问题条 件运动特征
Figure 352565DEST_PATH_IMAGE064
和问题条件物体特征
Figure 581552DEST_PATH_IMAGE065
融合视觉特征。将问题条件物体特征重塑为
Figure 255110DEST_PATH_IMAGE066
,然后对每一帧的物体特征 使用注意力池化操作得到剪辑级别的物体特征
Figure 657273DEST_PATH_IMAGE067
Figure 201518DEST_PATH_IMAGE068
是第k个片段的问 题条件物体特征。使用加法操作融合问题条件外观特征、运动特征和池化的物体特征获得 问题条件视觉特征
Figure 663723DEST_PATH_IMAGE069
。对于视觉语义特征的融合,使用拼接操作获得视觉语义 特征
Figure 558998DEST_PATH_IMAGE070
Figure 30431DEST_PATH_IMAGE071
Figure 163603DEST_PATH_IMAGE072
为视频动作语义特征,
Figure 999972DEST_PATH_IMAGE073
为视频对象语义特 征。最后,使用两个注意力池化操作分别获取各自的全局特征,并将两种全局特征进行加法 操作,得到最终的问题条件视觉特征和视觉语义特征融合的视觉全局特征
Figure 382543DEST_PATH_IMAGE074
Figure 595349DEST_PATH_IMAGE075
为视觉语义特征。
在本实施例中,关于使用对比学习对齐问题解析语义语言特征和对应的视觉特征 部分:将动作语义和对象语义拼接为整个特征对,将样本中语义一致的视觉文本特征对当 作正样本对,将样本内语义不同的视觉文本特征对作为负样本对,如图4所示,表示同样语 义的特征对为正样本对,具体地,比如表示动作1的语言特征
Figure 176503DEST_PATH_IMAGE076
和视觉特征
Figure 449353DEST_PATH_IMAGE077
为正样本 对,表示不同语义的特征对为负样本对,比如
Figure 850378DEST_PATH_IMAGE078
Figure 663614DEST_PATH_IMAGE076
负样本集,
Figure 833695DEST_PATH_IMAGE079
分别为表示动作2,对象1,对象2,对象3的视觉特征。使用对比损失的目的 是在特征空间中,将同一语义的问题特征和视觉特征拉近,不同语义的不同模态特征拉远, 以此缩小跨模态鸿沟。对比损失为
Figure 74183DEST_PATH_IMAGE080
Figure 696926DEST_PATH_IMAGE081
,其中,
Figure 720376DEST_PATH_IMAGE082
,使用余弦相似性衡 量跨模态特征的相似性,
Figure 276123DEST_PATH_IMAGE083
是预定义的间隔,
Figure 359616DEST_PATH_IMAGE084
对应S(Q+, V-)的上标表示在样本内语义 配对/非配对的正/负样本。
在本实施例中,关于使用答案解码器解码答案部分:
对于开放式问答,将问题全局特征
Figure 813DEST_PATH_IMAGE085
和视觉全局特征
Figure 562376DEST_PATH_IMAGE086
进行拼接,送入到一个带 有softmax的全连接层进行分类,即
Figure 238208DEST_PATH_IMAGE087
,其中
Figure 758182DEST_PATH_IMAGE088
Figure 886675DEST_PATH_IMAGE089
均为可学习参数,
Figure 48666DEST_PATH_IMAGE090
是开放式问答答案集合的大小,
Figure 313425DEST_PATH_IMAGE091
为 关注问题解析语义的问题全局特征。
对于多选问答,将每个候选答案与相应的问题拼接起来得到获选集,分别获取获 选集中的文本全局特征
Figure 535459DEST_PATH_IMAGE085
,并共享视觉全局特征
Figure 620090DEST_PATH_IMAGE086
通过哈达玛积将文本全局特征和视觉 全局特征融合,采用带有softmax的全连接层进行分类,即
Figure 116930DEST_PATH_IMAGE092
,其中
Figure 970617DEST_PATH_IMAGE093
均为可学习参数。
模型学习。对于开放式问答,最小化交叉熵损失优化模型:
Figure 160290DEST_PATH_IMAGE094
,其 中
Figure 732216DEST_PATH_IMAGE095
是第
Figure 32748DEST_PATH_IMAGE096
个样本的预测分数,如果答案指数与第
Figure 740941DEST_PATH_IMAGE096
个样本的基本真理答案相对应,
Figure 101515DEST_PATH_IMAGE097
, 否则为0。对于多选问答,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔:
Figure 160738DEST_PATH_IMAGE098
,其中
Figure 202643DEST_PATH_IMAGE099
是多选问答的选择个数,
Figure 296501DEST_PATH_IMAGE100
是正样本对,
Figure 827977DEST_PATH_IMAGE101
是负样 本对。最后,将对比学习损失和经验学习损失进行加权操作,最终的损失表示为
Figure 374496DEST_PATH_IMAGE102
,其中,
Figure 220092DEST_PATH_IMAGE103
为超参数,具体地,我们将其设置为1。
本发明通过语义解析工具解析问题,使用跨模态注意力机制生成与问题解析语义一致的视觉信息和问题条件视觉信息,使用对比学习缩小跨模态语义鸿沟,并融合问题解析出的语义视觉特征和问题条件视觉特征,丰富视觉特征搜索空间,根据问题特征和视觉特征解码视频问答的答案,提高了视频问答的准确率。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种语义对齐的视频问答方法,其特征在于,包括以下步骤:
通过语义分析工具进行问题语义解析及编码,获得问题解析语义特征,对所述问题解析语义特征进行融合,获得问题全局特征;
通过解析语义视觉选择模块和问题条件视觉模块进行视频解析和编码,融合解析语义视觉特征和问题条件视觉特征获得视觉全局特征;
通过对齐解析语义的语言特征和对应的视觉特征,缩小跨模态鸿沟,通过优化语言和视觉的语义特征优化所述问题全局特征和所述视觉全局特征;
将优化后的所述问题全局特征和优化后的所述视觉全局特征进行融合送入答案解码器推理答案。
2.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,通过语义分析工具进行问题语义解析的方法包括:
使用AllenNLP提供的语义角色标签工具对问题进行解析,将问题解析为动作部分和对象部分。
3.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对问题进行编码的方法包括:
将问题的所有单词表示为用预训练的Golve向量初始化的300维词嵌入;
将所述300维词嵌入送入双向LSTM中获取单词表征;
基于所述单词表征,使用注意力池化,获取问题的全局编码。
4.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,获得问题解析语义特征的方法包括:
根据问题语义解析的结构,对动作语义和对象语义的索引所对应的特征进行平均池化,得到问题动作语义特征和问题对象语义特征。
5.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对所述问题解析语义特征进行融合,获得问题全局特征的方法包括:
将问题动作语义特征和问题对象语义特征进行拼接,使用注意力池化操作并与问题全局特征进行加法操作得到关注解析语义的问题全局特征。
6.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,获得视觉全局特征的方法包括:
获取视频的外观特征、运动特征和物体特征;
对所述外观特征、运动特征和物体特征分别使用解析语义视觉选择模块进行视频语义解析,获得视觉语义特征;
基于所述外观特征、所述运动特征和所述物体特征,使用多头跨注意力模块,生成问题条件视觉特征;
基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征。
7.根据权利要求6所述的语义对齐的视频问答方法,其特征在于,基于所述视觉语义特征和所述问题条件视觉特征,获得视觉全局特征的方法包括:
将问题条件物体特征重塑,对重塑后每一帧的物体特征使用注意力池化操作得到剪辑级别的物体特征;
使用加法操作融合问题条件外观特征、问题条件运动特征和剪辑级别的物体特征;
使用拼接操作融合所述解析语义视觉特征;
基于融合的问题条件视觉特征和融合的解析语义视觉特征,使用两个注意力池化操作分别获取各自的全局特征并进行加法操作,得到视觉全局特征。
8.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,对齐解析语义的语言特征和对应的视觉特征的方法包括:
使用余弦相似性衡量不同模态的相似性;
将语义相同的跨模态特征作为正样本对,将语义不同的跨模态特征作为负样本对,使用对比学习优化解析语义跨模态特征以达到优化问题全局特征和视觉全局特征的目的。
9.根据权利要求1所述的语义对齐的视频问答方法,其特征在于,将所述问题全局特征和所述视觉全局特征进行融合送入答案解码器推理答案的方法包括:
对于开放式问答:将所述问题解析语义的全局特征和所述视觉全局特征进行拼接,并送入到一个带有softmax的全连接层进行分类,最小化交叉熵损失优化模型;
对于多选问答:将每个候选答案与相应的问题拼接起来得到获选集,分别获取获选集中的文本全局特征,并共享视觉全局特征,通过哈达玛积将文本全局特征和视觉全局特征融合,采用带有softmax的全连接层进行分类,使用铰链损失函数最大化正样本问答对和负样本问答对的间隔优化模型。
CN202211502821.6A 2022-11-29 2022-11-29 一种语义对齐的视频问答方法 Active CN115618061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211502821.6A CN115618061B (zh) 2022-11-29 2022-11-29 一种语义对齐的视频问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211502821.6A CN115618061B (zh) 2022-11-29 2022-11-29 一种语义对齐的视频问答方法

Publications (2)

Publication Number Publication Date
CN115618061A true CN115618061A (zh) 2023-01-17
CN115618061B CN115618061B (zh) 2023-03-10

Family

ID=84880634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211502821.6A Active CN115618061B (zh) 2022-11-29 2022-11-29 一种语义对齐的视频问答方法

Country Status (1)

Country Link
CN (1) CN115618061B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357720A1 (en) * 2016-06-10 2017-12-14 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US20180189385A1 (en) * 2016-12-29 2018-07-05 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for locating an answer based on question and answer
EP3709207A1 (en) * 2019-03-12 2020-09-16 Beijing Baidu Netcom Science and Technology Co., Ltd. Visual question answering model, electronic device and storage medium
CN111949824A (zh) * 2020-07-08 2020-11-17 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
EP3819790A2 (en) * 2020-06-30 2021-05-12 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for visual question answering, computer device and medium
CN114663677A (zh) * 2022-04-08 2022-06-24 杭州电子科技大学 一种基于跨模态预训练特征增强的视觉问答方法
CN114969298A (zh) * 2022-06-15 2022-08-30 茅台学院 一种基于跨模态异质图神经网络的视频问答方法
CN115017358A (zh) * 2022-08-09 2022-09-06 南京理工大学 一种多模态交互的跨模态检索方法及系统
US20220357177A1 (en) * 2021-05-10 2022-11-10 André SKUPIN Knowledge Space Analytics

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357720A1 (en) * 2016-06-10 2017-12-14 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US20180189385A1 (en) * 2016-12-29 2018-07-05 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for locating an answer based on question and answer
EP3709207A1 (en) * 2019-03-12 2020-09-16 Beijing Baidu Netcom Science and Technology Co., Ltd. Visual question answering model, electronic device and storage medium
EP3819790A2 (en) * 2020-06-30 2021-05-12 Beijing Baidu Netcom Science Technology Co., Ltd. Method and apparatus for visual question answering, computer device and medium
CN111949824A (zh) * 2020-07-08 2020-11-17 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
US20220357177A1 (en) * 2021-05-10 2022-11-10 André SKUPIN Knowledge Space Analytics
CN114663677A (zh) * 2022-04-08 2022-06-24 杭州电子科技大学 一种基于跨模态预训练特征增强的视觉问答方法
CN114969298A (zh) * 2022-06-15 2022-08-30 茅台学院 一种基于跨模态异质图神经网络的视频问答方法
CN115017358A (zh) * 2022-08-09 2022-09-06 南京理工大学 一种多模态交互的跨模态检索方法及系统

Also Published As

Publication number Publication date
CN115618061B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN111159223A (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN113157965B (zh) 音频可视化模型训练及音频可视化方法、装置及设备
CN113515951B (zh) 基于知识增强注意力网络和组级语义的故事描述生成方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN112256847B (zh) 融合事实文本的知识库问答方法
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN114020891A (zh) 双通道语义定位多粒度注意互增强的视频问答方法与系统
CN114048351A (zh) 一种基于时空关系增强的跨模态文本-视频检索方法
CN114549317A (zh) 一种基于时空超分辨率的视频描述方法及电子设备
Xu et al. A comprehensive survey of automated audio captioning
Chaudhary et al. Signnet ii: A transformer-based two-way sign language translation model
CN117292146A (zh) 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法
CN115618061B (zh) 一种语义对齐的视频问答方法
CN116385946A (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN114239575B (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
CN115994317A (zh) 基于深度对比学习的不完备多视图多标签分类方法和系统
Ji et al. Blog text quality assessment using a 3D CNN-based statistical framework
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN114677631A (zh) 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法
Xue et al. A multi-modal fusion framework for continuous sign language recognition based on multi-layer self-attention mechanism
CN116561350B (zh) 一种资源生成方法及相关装置
CN115983280B (zh) 面向不确定模态缺失的多模态情感分析方法及系统
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant