CN114996513A - 基于跨模态提示学习的视频问答方法与系统 - Google Patents

基于跨模态提示学习的视频问答方法与系统 Download PDF

Info

Publication number
CN114996513A
CN114996513A CN202210510047.7A CN202210510047A CN114996513A CN 114996513 A CN114996513 A CN 114996513A CN 202210510047 A CN202210510047 A CN 202210510047A CN 114996513 A CN114996513 A CN 114996513A
Authority
CN
China
Prior art keywords
video
text
highlight
question
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210510047.7A
Other languages
English (en)
Inventor
李树涛
李宾
孙斌
郭虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210510047.7A priority Critical patent/CN114996513A/zh
Publication of CN114996513A publication Critical patent/CN114996513A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于跨模态提示学习的视频问答方法与系统,本发明方法包括:针对示教视频提取视觉特征和文本特征,利用上下文查询注意力得到对应的跨模态输出特征;根据输出特征,利用视频答案区间高亮模块获取视频答案区间高亮特征并作为预训练的语言模型的视觉提示,通过预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。本发明以高效准确从给定的未剪辑的示教视频中找到问题匹配的视频答案时间段区间,以视频答案时间段区间从语义上回答指定的文本问题为目标,利用视频答案区间高亮模块增强了预训练语言模型中的文本跨度定位,能显著提高视频分类和视频问答的准确率和效率,且适用于各类视频的分类与视频问答任务。

Description

基于跨模态提示学习的视频问答方法与系统
技术领域
本发明属于人工智能技术,具体涉及一种基于跨模态提示学习的视频问答方法与系统。
背景技术
人工智能(AI)的关键目标之一是开发一种使用自然语言查询的多模态系统,以促进自然语言与视觉世界(即图像、视频)的交流。近年来,由于预训练模型的发展和大规模语言-视觉数据集的引入,语言和视觉理解之间的差距逐渐缩小,许多视觉和语言任务都有了显著进步,例如视觉分类、视频问答和自然语言视频本地化。最近,在线视频的激增改变了人们获取信息和知识的方式。许多人喜欢通过示教视频学习掌握如何通过一系列循序渐进的步骤来完成特定任务。示教视频是指用于清楚地展示相关问题的程序的视频,包含视频以及相关字幕,以用于提供足够的细节来重现该程序并达到预期的结果,随附的叙述应切中要害,并应清楚地描述视觉内容中的步骤,且说明应处于易于理解且可由外行执行的水平。因此,示教视频适合并有助于以有效并高效的方式通过视觉和语言交流传达关键信息。如何更好地将示教视频与其他视频区分开就成为示教视频问答的第一步关键工作。
当获取示教视频之后,视频中的时间应答(TAGV)以其高效的方式进行视觉和语言交流,同样引起了越来越多研究者的关注。TAGV任务的目标是找到与其问题相对应的匹配视频答案范围,即视觉答案定位。作为视频中时态句子基础(TSGV)技术的自然发展衍生,语言与视觉两种不同模态之间存在的巨大差距给TAGV任务带来了挑战。其内在原因是文本问题在句法结构中是连续的,而视频在相邻帧中是连续的。人们可以通过自然语言轻松回答问题,但如果没有视频中的即时指导来展示他们的答案,也很难采取相应行动。事实上对于给定的问题,整个视频往往不能被视为答案,而应该选择与问题对应的特定时间应答段来作答。如何设计一种能够正确定位视频时间线的跨多模态方法仍然是当前TAGV问题的研究重点之一。
为了在视频中实现可靠、准确的自然语言时间定位,研究者们做出了许多努力,诸如如视频时刻检索和视频问题回答等类似的任务证明对跨模态的理解很重要。然而,这些工作中采用的方法不能直接推广到TAGV任务,因为要检索的查询是问题,而问题的答案位于视频时间线上。与自然语言处理(NLP)领域中的问答(QA)问题类似,现在多采用现有的基于跨度的方法来解决TAGV问题。现有的基于跨度的方法倾向于对视频和文本分别编码以进行特征编码,并采用跨模态建模来在同一空间中构建特征表示,视觉回答范围可以通过视频帧中的头部和尾部来定位。然而,文本和视频之间的语义信息存在巨大差异,导致文本问题所查询的定位视频跨度会有偏差。此外,文本问题和视频帧之间的弱相关性将导致答案的表示不足。因此,亟需降低文本特征与视觉特征之间的语义差异和相关性,提升视频问答的性能,使人们更高效准确的获得所需的关键信息。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于跨模态提示学习的视频问答方法与系统,本发明以高效准确从给定的未剪辑的示教视频中找到问题匹配的视频答案时间段区间,以视频答案时间段区间从语义上回答指定的文本问题为目标,利用视频答案区间高亮模块增强了预训练语言模型中的文本跨度定位,能显著提高视频分类和视频问答的准确率和效率。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于跨模态提示学习的视频问答方法,包括:
1)针对被定位的示教视频提取视觉特征V;针对被定位的示教视频的文本问题提取文本特征Q;
2)根据视觉特征V以及文本特征Q,利用上下文查询注意力得到对应的上下文查询注意输出特征
Figure BDA0003639050660000021
3)将被定位的示教视频分为视频答案区间高亮部分和扩展部分,通过预设的视频答案区间高亮模块根据上下文查询注意输出特征
Figure BDA0003639050660000022
以及文本特征Q中的单词特征,计算视频答案区间高亮部分的特征Sh,并对特征Sh进行线性处理得到视频答案区间高亮特征S'h
4)采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示以使文本特征可捕捉到视觉信息,将视觉提示嵌入所述预训练的语言模型;
5)通过所述预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。
可选地,步骤1)中提取视觉特征V包括:将被定位的示教视频的以统一的时间间隔提取出原始帧,对原始帧提取特征后依次通过图像三维卷积网络I3D,再经过视觉投影得到视觉特征V。
可选地,步骤1)中提取文本特征Q包括:将被定位的示教视频的文本问题输入预训练语言模型PLM,再经过文本投影得到文本特征Q。
可选地,步骤2)中利用上下文查询注意力得到对应的上下文查询注意输出特征
Figure BDA0003639050660000023
的函数表达式为:
Figure BDA0003639050660000024
上式中,
Figure BDA0003639050660000025
表示利用上下文查询注意力得到对应的上下文查询注意输出特征,FFN表示将输入量通过线性函数进行线性变换,V表示视觉特征,⊙表示按元素的乘法,A表示上下文到查询过程,B表示查询到上下文过程,且有:
A=Sr·Q,B=Sr·Sc T·V,
上式中,Sr和Sc分别为SoftMax函数对可学习的矩阵S的行和列标准化后的矩阵,矩阵Sr的维度和矩阵Sc的维度均为n*m,T表示矩阵的转置,文本特征Q的维度为m*d,视觉特征V的维度为n*d,且有A∈Rn×d,B∈Rn×d,Rn×d表示维度,n表示视频时间,d表示神经元数,m表示特征的个数。
可选地,步骤3)包括:
3.1)将被定位的示教视频包含字幕的部分的事实作为视频答案区间高亮部分,根据下式计算视频答案区间高亮部分的时间THighlight
THighlight=te-ts
上式中,THighlight表示视频答案区间高亮部分的时间,te是包含字幕的部分的事实的结束时间,ts是包含字幕的部分的事实的开始时间;并将被定位的示教视频的非语言帧扩展为扩展部分,并根据下式计算出扩展部分的扩展时间Textend
Textend=THighlight*(1+α)
上式中,α为超参数;
3.2)通过预设的视频答案区间高亮模块将用自注意力机制将文本特征Q中的单词特征
Figure BDA0003639050660000031
编码为句子表征hQ,将句子表征hQ分别与上下文查询注意输出特征
Figure BDA0003639050660000032
的n个特征
Figure BDA0003639050660000033
Figure BDA0003639050660000034
级联连接得到级联特征
Figure BDA0003639050660000035
将级联特征
Figure BDA0003639050660000036
依次通过一维卷积网络Conv1D以及激活函数层得到各个视频答案区间高亮部分的特征Sh,并对Sh进行线性处理得到视频答案区间高亮特征S'h;且视频答案区间高亮模块训练时所采用的损失函数为:
Lhighlight=fBCE(S'h,Textend)
上式中,Lhighlight为视频答案区间高亮模块训练时所采用的损失函数,fBCE表示二值交叉熵损失函数。
可选地,步骤4)包括:采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示,将文本问题、字幕构成的文本特征和视频答案区间高亮特征S'h构成的视觉提示一起构建输入令牌;将所述输入令牌采用嵌入模块在同一个向量空间中学习特征,从而得到用于预训练的语言模型的输入特征序列。
可选地,步骤5)包括:
5.1)将输入特征序列通过所述预训练的语言模型获得隐藏表示h,所述预训练的语言模型为DeBERTa网络,获得隐藏表示h的函数表达式为:
Figure BDA0003639050660000037
上式中,DeBERTa(x)表示输入特征序列x通过DeBERTa网络得到的结果,
Figure BDA0003639050660000038
表示维度,rh表示隐藏维度的大小,|x|表示输入特征序列x的长度;
5.2)将隐藏表示h分别通过两个单独的密集层并通过softmax激活函数得到特征l1和特征l2,两个单独的密集层的函数表达式为:
l1=softmax(W1·h+b1)
l2=softmax(W2·h+b2)
上式中,softmax表示softmax激活函数,softmax激活函数沿序列的维度应用,权重
Figure BDA0003639050660000041
Figure BDA0003639050660000042
偏置值b1,b2∈R,R表示实数;
5.3)根据下式计算得到文本问题的字幕跨度[s,e]并输出;
Figure BDA0003639050660000043
Figure BDA0003639050660000044
上式中,s表示文本问题的字幕跨度的起始位置,e表示文本问题的字幕跨度的结束位置。
可选地,步骤1)之前还包括识别示教视频的步骤:
S1)针对被识别的视频及其对应的视频标题和字幕,通过预先完成训练的目标分类模型,确定视频的类型为目标视频(医疗视频)还是非目标视频(非医疗视频),如果是目标视频,则跳转下一步;否则,结束并退出;
S2)针对被识别的目标视频及其对应的视频标题和字幕,通过预先完成训练的示教分类模型,确定目标视频的类型为示教视频还是非示教视频,如果是示教视频,则跳转步骤1);否则,结束并退出。
可选地,所述目标分类模型和示教分类模型进行分类的步骤包括:
S1.1,通过单模态视频分类模型进行二元分类预测:首先,将被识别视频的视频标题与字幕连接起来,字幕被分割成文本跨度,并采用分隔符形成标记化标记;然后,通过DeBERTa网络模型对标记化标记进行编码,再依次通过一个池化层进行平均池化、一个全连接层进行全连接处理,得到二元分类预测的二进制分类标签;通过跨模态视频分类模型进行二元分类预测:首先,对于文本模态,将字幕通过嵌入层进行字符嵌入得到字符向量,再输入到预训练的DeBERTa网络模型并经过池化层进行平均池化处理以获得文本特征;对于视觉模态,通过下采样提取原始帧,以统一的时间间隔从每个视频中导出;使用现有的图像三维卷积网络I3D和二维卷积模块Convolution-2D获取视觉特征;然后通过执行上下文查询连接以联合对齐文本特征和视觉特征,并通过全连接层输出二元分类预测的二进制分类标签;
S1.2,针对单模态视频分类模型、跨模态视频分类模型进行二元分类预测的结果,采用Bagging算法对上述单模态视频分类模型、跨模态视频分类模型两个模型的二元分类预测的结果进行投票,将得票更多的二进制分类标签作为最终的二元分类预测的结果。
此外,本发明还提供一种基于跨模态提示学习的视频问答系统,包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行所述基于跨模态提示学习的视频问答方法的步骤。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,该计算机程序用于被微处理器编程或配置以执行所述基于跨模态提示学习的视频问答方法的步骤。
和现有技术相比,本发明主要具有下述优点:
1、本发明以高效、准确从给定的未剪辑的示教视频中找到问题匹配的时间线跨度,以视频时间线区间从语义上回答指定的文本问题为目标,利用视频答案区间高亮模块增强了预训练语言模型(PLM)中的文本跨度定位,与传统方法相比,能显著提高视频分类和视频问答的准确率和效率。
2、本发明不仅可以适用于实施例中举例的医疗示教视频的分类与视频问答,可适用于其他各个领域的各类视频的分类和视频问答,具有通用好的优点。
附图说明
图1为本发明实施例方法的整体流程图。
图2为本发明实施例中步骤1)~步骤3)部分的原理图。
图3为本发明实施例中视频答案区间高亮的示意图。
图4为本发明实施例中高亮模块的结构图。
图5为本发明实施例中步骤4)~步骤5)部分的原理图。
图6为本发明实施例中两阶段跨模态融合方法示意图。
图7为本发明实施例中单模态语言分类模型的示意图。
图8为本发明实施例中跨模态分类模型的示意图。
具体实施方式
下文将以医疗示教视频为例,对本发明基于跨模态提示学习的视频问答方法与系统进行进一步的详细说明。需要说明的是,本发明基于跨模态提示学习的视频问答方法与系统不依赖/限定具体的视频类型。
如图1,本实施例基于跨模态提示学习的视频问答方法包括:
1)针对被定位的示教视频提取视觉特征V;针对被定位的示教视频的文本问题提取文本特征Q;
2)根据视觉特征V以及文本特征Q,利用上下文查询注意力得到对应的上下文查询注意输出特征
Figure BDA0003639050660000061
3)将被定位的示教视频分为视频答案区间高亮部分和扩展部分,通过预设的视频答案区间高亮模块根据上下文查询注意输出特征
Figure BDA0003639050660000062
以及文本特征Q中的单词特征,计算视频答案区间高亮部分的特征Sh,并对特征Sh进行线性处理得到视频答案区间高亮特征S'h
4)采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示以使文本特征可捕捉到视觉信息,将视觉提示嵌入所述预训练的语言模型;
5)通过所述预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。
参见图2,本实施例步骤1)中提取视觉特征V包括:将被定位的示教视频的以统一的时间间隔提取出原始帧,对原始帧提取特征后依次通过图像三维卷积网络I3D,再经过视觉投影得到视觉特征V,可表示为:
Figure BDA0003639050660000063
上式中,m1表示提取的视觉特征数。视觉特征V的维度为n*d,n表示视频时间,d表示神经元数,m表示特征的个数。
参见图2,本实施例步骤1)中提取文本特征Q包括:将被定位的示教视频的文本问题(例如本实施例中为“如何缓解牙龈疼痛”)输入预训练语言模型PLM,再经过文本投影得到文本特征Q。本实施例中,预训练语言模型PLM具体采用DeBEATa网络模型,以获得格式良好的文本表示,此外也可以根据需要采用其他的预训练语言模型。经过文本投影得到文本特征Q可表示为:
Figure BDA0003639050660000064
上式中,m2表示提取的文本特征数。
本实施例步骤2)中利用上下文查询注意力旨在通过上下文到查询和查询到上下文过程(A和B)捕获跨模态交互。本实施例步骤2)中利用上下文查询注意力得到对应的上下文查询注意输出特征
Figure BDA0003639050660000065
的函数表达式为:
Figure BDA0003639050660000066
上式中,
Figure BDA0003639050660000067
表示利用上下文查询注意力得到对应的上下文查询注意输出特征,FFN表示将输入量通过线性函数进行线性变换,V表示视觉特征,⊙表示按元素的乘法,A表示上下文到查询过程,B表示查询到上下文过程,且有:
A=Sr·Q,B=Sr·Sc T·V,
上式中,Sr和Sc分别为SoftMax函数对可学习的矩阵S的行和列标准化后的矩阵,矩阵Sr的维度和矩阵Sc的维度均为n*m,T表示矩阵的转置,文本特征Q的维度为m*d,视觉特征V的维度为n*d,且有A∈Rn×d,B∈Rn×d,Rn×d表示维度,n表示视频时间,d表示神经元数,m表示特征的个数。
视频答案区间高亮部分是指示教视频中包含字幕的部分(简称为事实),扩展部分(则为视频答案区间高亮部分以外的其余部分。本实施例中,步骤3)包括:
3.1)将被定位的示教视频包含字幕的部分的事实作为视频答案区间高亮部分(如图3所示),根据下式计算视频答案区间高亮部分的时间THighlight
THighlight=te-ts
上式中,THighlight表示视频答案区间高亮部分的时间,te是包含字幕的部分的事实的结束时间,ts是包含字幕的部分的事实的开始时间;并将被定位的示教视频的非语言帧扩展为扩展部分(如图3所示),并根据下式计算出扩展部分的扩展时间Textend
Textend=THighlight*(1+α)
上式中,α为超参数;对于示教视频而言,基本事实位于包含字幕的部分(语言部分)。然而,对于示教视频而言,非语言部分(不包含字幕的部分,即扩展部分)也很重要,因此本实施例中的高亮突出显示处理,旨在扩大基本事实文本范围。具体而言,将示教视频中包含字幕的部分(视频答案区间高亮部分)作为前景,非语言部分(不包含字幕的部分,即扩展部分)视为视频中的背景,从而实现前景、背景的融合来实现更加的目标文本广度边界,使得目标文本广度边界被扩大,覆盖了语言和非语言信息,可有效提高计算视频答案区间高亮部分的特征Sh的准确度。参见前文扩展部分的扩展时间Textend的计算公式可知,目标文本广度边界被扩大的扩展比由超参数α控制,超参数α可通过对(视频答案区间高亮模块)的神经网络训练来确定,本实施例中超参数α值为0.1。
3.2)如图4所示,通过预设的视频答案区间高亮模块将用自注意力机制将文本特征Q中的单词特征
Figure BDA0003639050660000071
编码为句子表征hQ,将句子表征hQ分别与上下文查询注意输出特征
Figure BDA0003639050660000072
的n个特征
Figure BDA0003639050660000073
级联连接得到级联特征
Figure BDA0003639050660000074
将级联特征
Figure BDA0003639050660000075
依次通过一维卷积网络Conv1D以及激活函数层得到各个视频答案区间高亮部分的特征Sh,并对Sh进行线性处理得到视频答案区间高亮特征S'h,可表示为:
Figure BDA0003639050660000076
S'h=Linear(Sh)
上式中,σ表示激活函数,
Figure BDA0003639050660000077
表示第i个级联特征,Conv1D表示一维卷积网络Conv1D,Linear表示线性函数;且视频答案区间高亮模块训练时所采用的损失函数为:
Lhighlight=fBCE(S'h,Textend)
上式中,Lhighlight为视频答案区间高亮模块训练时所采用的损失函数,fBCE表示二值交叉熵损失函数。视频答案区间高亮模块训练时所采用的损失函数Lhighlight
使用查询引导的突出显示计算得到,不仅涵盖了包含字幕的部分(语言部分),还涵盖了非语言部分(不包含字幕的部分,即扩展部分),并通过逐帧计算的二值交叉损失。参见视频答案区间高亮特征S'h的函数表达式可知,视频答案区间高亮模块的网络结构依次由一维卷积网络Conv1D、激活函数层(激活函数σ)、线性函数层(线性函数Linear)构成,训练时以端到端的方式训练,最小化的损失函数L=Lhighlight
本实施例中采用视频答案区间高亮特征作为提示预训练语言模型的视觉标记。具体来说,视频答案区间高亮特征与输入文本标记具有相同的维度,一方面,视觉提示涵盖了文本标记缺少的非语言部分,另一方面,视觉提示由视觉框架监督,其中一些视觉特征可以作为微调时预训练模型的额外知识。将提示功能用作与文本问题(也可以称为文本查询)和视频字幕连接的视觉标记,由此可以通过额外的知识来增强预先训练的模型。因此,参见图5,本实施例中步骤4)包括:采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示,将文本问题、字幕构成的文本特征和视频答案区间高亮特征S'h构成的视觉提示一起构建输入令牌;将输入令牌采用词嵌入模块(图中省略未绘出)在同一个向量空间中学习特征,即:将词嵌入(Word Embedding)模块在同一个向量空间中学习特征,从而得到用于预训练的语言模型的输入特征序列。参见图5,本实施例中输入令牌包含令牌头[CLS]以及用于分隔文本问题、字幕以及高亮特征S'h的分隔符[SEP],且图中示例的9条字幕之间不需要采用分隔符[SEP]分隔。文本问题和字幕连接后,每个字幕都会根据字幕跨度进行分割,然后采用词嵌入模块在同一个向量空间中学习特征。
本实施例中,步骤5)包括:
5.1)将输入特征序列通过所述预训练的语言模型获得隐藏表示h,所述预训练的语言模型为DeBERTa网络,获得隐藏表示h的函数表达式为:
Figure BDA0003639050660000081
上式中,DeBERTa(x)表示输入特征序列x通过DeBERTa网络得到的结果,
Figure BDA0003639050660000082
表示维度,rh表示隐藏维度的大小,|x|表示输入特征序列x的长度;本实施例中采用DeBERTa网络作为预训练的语言模型进行特征编码和自注意力,每个标记都有一个被选中头部和尾部的概率,这些标记的概率落在字幕范围内,因此,可以通过逐个令牌执行交叉熵来完成基于字幕跨度的预测。
5.2)将隐藏表示h分别通过两个单独的密集层并通过softmax激活函数得到特征l1和特征l2,两个单独的密集层的函数表达式为:
l1=softmax(W1·h+b1)
l2=softmax(W2·h+b2)
上式中,softmax表示softmax激活函数,softmax激活函数沿序列的维度应用,权重
Figure BDA0003639050660000091
Figure BDA0003639050660000092
偏置值b1,b2∈R,R表示实数;
5.3)根据下式计算得到文本问题的字幕跨度[s,e]并输出;
Figure BDA0003639050660000093
Figure BDA0003639050660000094
上式中,s表示文本问题的字幕跨度的起始位置,e表示文本问题的字幕跨度的结束位置。因此,最终的视觉答案跨度将始终与文本预测文本跨度对齐,表示为[s,e]。步骤5)中可通过最小化以下损失来训练文本预测损失:
L=Ltext_span
其中,Ltext_span为逐令牌计算的交叉熵损失LCE(参见图5)。
且训练的总优化函数Ltotal如下所示:
Ltotal=λ*Lhighlight+Ltext_span
其中λ是用于调整总损失的超参数,Lhighlight部分涵盖非语言信息,Ltext_span涵盖语言文本信息。突出显示部分包含视频答案信息,只需使用视频答案区间高亮模块来提示预转换的语言模型,文本预测器就可以在连接文本标记和视觉标记之后执行预测。图5中记载了将[CLS]文本问题[SEP]字幕[SEP]视频答案区间高亮特征相连接进行词嵌入表示,将嵌入表示输入预训练的语言模型进行编码,通过1024*1024的线性层进行线性投影之后,对预测的字幕跨度与实际字幕答案跨度计算交叉熵损失,图中显示的起始位置位于P8也即第8个字幕的开始P8 start,结束位置位于P9也即第9个字幕的结尾P9 end。因此最后预测的视频答案范围为第八个字幕的开始时间:14.91s到第九个字幕的结束时间:19.21s,也即预测范围为14.91~19.21,字幕跨度为[14.91,19.21]。HL表示为视频的视频答案区间高亮特征(HighLight Feature)。线性层(linear layer)为1024*1024的linear layer。
考虑到视频素材的海量特性,作为一种可选的实施方式,本实施例中进一步提供一种从视频素材中识别出示教视频的方法。如图6所示,步骤1)之前还包括识别示教视频的步骤:
S1)针对被识别的视频及其对应的视频标题和字幕,通过预先完成训练的目标分类模型,确定视频的类型为目标视频(本实施例中具体为医疗领域的医疗视频)还是非目标视频(非医疗视频),如果是目标视频,则跳转下一步;否则,结束并退出;
S2)针对被识别的目标视频及其对应的视频标题和字幕,通过预先完成训练的示教分类模型,确定目标视频的类型为示教视频(本实施例中具体为医疗领域的医疗示教视频)还是非示教视频(本实施例中具体为医疗领域的医疗非示教视频),如果是示教视频,则跳转步骤1);否则,结束并退出。
需要说明的是,本实施例中将医疗领域的医疗视频作为目标视频仅仅是为了便于举例说明。毫无疑问,可根据需要选择目标分类模型的训练样本的标签,还实现不同类型的目标视频、非目标视频的识别。本实施例中识别示教视频的方法分为S1和S2两个阶段,故简称两阶段方法。本实施例中,目标分类模型和示教分类模型的实现包括:
S1.1,通过单模态视频分类模型进行二元分类预测:
由于视频内容与其字幕直接相关,因此可使用相应的字幕文本对输入视频采用图7所示的单模态视频分类模型进行分类:首先,将被识别视频的视频标题与字幕连接起来,字幕被分割成文本跨度(分割为文本x1~xN),用于文本编码。然后使用[CLS]作为令牌头、[SEP]作为分隔符形成标记化标记;然后,通过DeBERTa网络模型对标记化标记进行编码,以学习格式良好的表示,图中E[CLS]为令牌头的标记,经过DeBERTa网络模型得到对应的特征为t[CLS];E[SEP]为分隔符的标记,经过DeBERTa网络模型得到对应的特征为t[SEP];文本x1~xN经过DeBERTa网络模型得到对应的特征为t1~tN。然后,得到的特征依次通过一个池化层进行平均池化、一个全连接层进行全连接处理,得到二元分类预测的二进制分类标签。
通过跨模态视频分类模型进行二元分类预测:
人们在观看视频时,并不总是仅仅通过字幕来判断视频内容,对于非音频部分,视觉信息非常重要。作为一种可选的实施方式,目标分类模型和示教分类模型可采用图8所示的对于每个字幕跨度添加视觉特征来预测视频内容的跨模态视频分类模型,专注于视频帧和字幕文本的特征联合对齐,在将字幕跨度与其对应的视频帧映射到相同的向量空间后执行二进制分类,具体步骤包括:对于文本模态,将字幕(图8为包含14个字幕,包括跨度1~跨度14)通过嵌入层进行字符嵌入得到字符向量span′1~span′14,再输入到预训练的DeBERTa网络模型并经过池化层进行平均池化处理以获得文本特征,图中E[CLS]为令牌头的标记,经过DeBERTa网络模型得到对应的特征为t[CLS];E[SEP]为分隔符的标记,经过DeBERTa网络模型得到对应的特征为t[SEP];字符向量span′1~span′14经过DeBERTa网络模型得到对应的特征为t1~t14;对于视觉模态,通过下采样提取原始帧(图8中分别表示为字幕1帧~字幕14帧),以统一的时间间隔从每个视频中导出;使用现有的图像三维卷积网络I3D(图像3D-ConvNet)和二维卷积模块Convolution-2D获取视觉特征。本实施例中,文本特征和视觉特征是在Kinetics数据集上预训练的,在获得文本特征和视觉特征以后,通过执行上下文查询连接(Hao Zhang,Aixin Sun,Wei Jing,and Joey Tianyi Zhou.Span-basedlocalizing network for natural language video localization.In Proceedings ofthe 58th Annual Meeting of the Association for Computational Linguistics,pages 6543–6554,2020.)以联合对齐文本特征和视觉特征,并通过全连接层输出二元分类预测的二进制分类标签。
S1.2,针对单模态视频分类模型、跨模态视频分类模型进行二元分类预测的结果,采用Bagging算法(Leo Breiman.1996.Bagging predictors.Machine learning,24(2):123–140.)对上述单模态视频分类模型、跨模态视频分类模型两个模型的二元分类预测的结果进行投票,将得票更多的二进制分类标签作为最终的二元分类预测的结果。由于视觉特征和语言特征之间存在巨大差距,通过在预测过程中采用Bagging算法,通过弥合不同模型的预测偏差,有效地降低最终预测的方差,提高系统的整体泛化能力。
为了验证本发明方法的性能,下文将本实施例方法与现有方法在MedVidCL数据集和MedVidQA数据集上进行医学视频分类和问答的测试,其中,MedVidCL数据集为医疗视频分类数据集,MedVidQA数据集医疗视频定位问答数据集,两数据集均来自bionlp,网址https://bionlp.nlm.nih.gov/。
为了简便,下文将本实施例方法的步骤1)~步骤5)简称为VPTSL方法。针对步骤1)之前识别示教视频的方法,除了前述步骤S1)~S2)记载的方法(简称为ours(Two-Stage)+DeBERTa+13D)以外,还提供了一种基于跨模态视频分类模型实现一阶段三分类的方法(简称为Ours(One-Stage)+DeBERTa+I3D),即:对于文本模态,将字幕通过嵌入层进行字符嵌入得到字符向量,再输入到预训练的DeBERTa网络模型并经过池化层进行平均池化处理以获得文本特征;对于视觉模态,通过下采样提取原始帧,以统一的时间间隔从每个视频中导出;使用现有的图像三维卷积网络I3D(图像3D-ConvNet)和二维卷积模块Convolution-2D获取视觉特征。在获得文本特征和视觉特征以后,通过执行上下文查询连接以联合对齐文本特征和视觉特征,并通过全连接层输出一阶段三分类预测的二进制分类标签。
作为对比的现有方法(模型)包括:
BigBird One-Stage(Monomodal):仅使用BigBird模型提取文本特征进行一阶段视频三分类的单模态方法。
BigBird Two-Stage(Monomodal)仅使用BigBird模型提取文本特征进行两阶段视频依次二分类的单模态方法。
BigBird参见:Manzil Zaheer,Guru Guruganesh,Avinava Dubey,JoshuaAinslie,Chris Alberti,Santiago
Figure BDA0003639050660000111
Philip Pham,Anirudh Ravula,Qifan Wang,Li Y ang,and Amr Ahmed.2020.Big bird:Transformers for longer sequences.arXiv:Learning.
Random Mode分类模型参数随机载入的视频分类方法。
Random Guess不使用模型的依据随机数选择的视频分类方法。
vSLBase(2020)参见:Hao Zhang,Aixin Sun,Wei Jing,and Joey TianyiZhou.Span-based localizing network for natural language videolocalization.arXiv:Computation and Language,2020。TMLGA(2020)参见Cristian Rodríguez-Opazo,Edison Marrese-Taylor,Fatemeh Sadat Saleh,Hongdong Li,and StephenGould.Proposal-free temporal moment localization of a natural-language queryin video using guided attention.Winter Conference on Applications of ComputerVision,2020。VSLNet(2020)参见:Hao Zhang,Aixin Sun,Wei Jing,and Joey TianyiZhou.Span-based localizing network for natural language videolocalization.arXiv:Computation and Language,2020。现有方法VSLNet-L(2021)参见:Hao Zhang,Aixin Sun,Wei Jing,Liangli Zhen,Joey Tianyi Zhou,and Rick SiowMongGoh.Natural language video localization:A revisit in span-based questionanswering framework.IEEE Transactions on Pattern Analysis and MachineIntelligence,2021。现有方法ACRM(2021)和RaNet(2021)参见:H.Tang,J.Zhu,M.Liu,Z.Gao,and Z.Cheng.Frame-wise cross-modal matching for video momentretrieval.IEEE Transactions on Multimedia,pages 1–1,2021。
对比所选择的评价指标包括:
精确度Precision的计算函数表达式为:
Precision=TP/(TP+FP),
召回率Recall的计算函数表达式为:
Recall=TP/(TP+FN)
F1分数的计算函数表达式为:
F1=(2*Precision Recall)/(Precision+Recall)
Macro F1的计算函数表达式为:
Figure BDA0003639050660000121
其中,TP为被正确分类的正例,FP为被错误分类的正例,FN为为被错误分类的负例,F1i为第i个测试样本的F1分数,n为测试样本的数量。
此外,IoU测量系统预测答案跨度和真实答案跨度之间的重叠比例,mIoU是所有测试样本的平均IoU。
最终,得到的评价结果如表1和表2所示。
表1:MedVidCL测试集测试结果。
Figure BDA0003639050660000122
Figure BDA0003639050660000131
参见表1可知,本实施例所提出方法明显领先于其他基线方法(BigBird One-Stage(Monomodal)和BigBird Two-Stage(Monomodal))。
表2:MedVidQA数据集上的性能比较结果。
Figure BDA0003639050660000132
表2中展示了本实施例方法(VPTSL)和RaNet(2021)之间的改进提升,参见表2可知,本实施例方法(VPTSL)在mIOU分数为0.3、0.5、0.7的情况下均优于所有表中所列其他方法,所提出的基于跨模态提示学习的视频问答方法相比其他方法有很大的优势,这证明了本实例方法的有效性。
综上所述,针对医学视频问答,本实施例提出一种基于跨模态提示学习的视频问答方法,该方法利用视频答案区间高亮模块增强了预训练语言模型(PLM)中的文本跨度定位;具体来说,使用上下文查询注意力在文本和视觉特征之间执行跨模态建模,随后通过带有线性层的视频答案区间高亮模块获得视频答案区间高亮特征,以提供视觉提示;在PLM中对问题、字幕和视觉提示进行编码来设计文本广度预测器以缓解语义上的差异以及文本和视觉特征之间的相关性,准确高效的对示教视频进行分类和问答。与传统方法相比,能显著提高视频分类和视频问答的准确率和效率。
此外,本实施例还提供一种基于跨模态提示学习的视频问答系统,包括相互连接的微处理器和存储器,该微处理器被编程或配置以执行前述基于跨模态提示学习的视频问答方法的步骤。
此外,本实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,该计算机程序用于被微处理器编程或配置以执行前述基于跨模态提示学习的视频问答方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于跨模态提示学习的视频问答方法,其特征在于包括:
1)针对被定位的示教视频提取视觉特征V;针对被定位的示教视频的文本问题提取文本特征Q;
2)根据视觉特征V以及文本特征Q,利用上下文查询注意力得到对应的上下文查询注意输出特征
Figure FDA0003639050650000011
3)将被定位的示教视频分为视频答案区间高亮部分和扩展部分,通过预设的视频答案区间高亮模块根据上下文查询注意输出特征
Figure FDA0003639050650000012
以及文本特征Q中的单词特征,计算视频答案区间高亮部分的特征Sh,并对特征Sh进行线性处理得到视频答案区间高亮特征S'h
4)采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示以使文本特征可捕捉到视觉信息,将视觉提示嵌入所述预训练的语言模型;
5)通过所述预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。
2.根据权利要求1所述的基于跨模态提示学习的视频问答方法,其特征在于,步骤1)中提取视觉特征V包括:将被定位的示教视频的以统一的时间间隔提取出原始帧,对原始帧提取特征后依次通过图像三维卷积网络I3D,再经过视觉投影得到视觉特征V;步骤1)中提取文本特征Q包括:将被定位的示教视频的文本问题输入预训练语言模型PLM,再经过文本投影得到文本特征Q。
3.根据权利要求1所述的基于跨模态提示学习的视频问答方法,其特征在于,步骤2)中利用上下文查询注意力得到对应的上下文查询注意输出特征
Figure FDA0003639050650000013
的函数表达式为:
Figure FDA0003639050650000014
上式中,
Figure FDA0003639050650000015
表示利用上下文查询注意力得到对应的上下文查询注意输出特征,FFN表示将输入量通过线性函数进行线性变换,V表示视觉特征,⊙表示按元素的乘法,A表示上下文到查询过程,B表示查询到上下文过程,且有:
A=Sr·Q,B=Sr·Sc T·V,
上式中,Sr和Sc分别为SoftMax函数对可学习的矩阵S的行和列标准化后的矩阵,矩阵Sr的维度和矩阵Sc的维度均为n*m,T表示矩阵的转置,文本特征Q的维度为m*d,视觉特征V的维度为n*d,且有A∈Rn×d,B∈Rn×d,Rn×d表示维度,n表示视频时间,d表示神经元数,m表示特征的个数。
4.根据权利要求1所述的基于跨模态提示学习的视频问答方法,其特征在于,步骤3)包括:
3.1)将被定位的示教视频包含字幕的部分的事实作为视频答案区间高亮部分,根据下式计算视频答案区间高亮部分的时间THighlight
THighlight=te-ts
上式中,THighlight表示视频答案区间高亮部分的时间,te是包含字幕的部分的事实的结束时间,ts是包含字幕的部分的事实的开始时间;并将被定位的示教视频的非语言帧扩展为扩展部分,并根据下式计算出扩展部分的扩展时间Textend
Textend=THighlight*(1+α)
上式中,α为超参数;
3.2)通过预设的视频答案区间高亮模块将用自注意力机制将文本特征Q中的单词特征
Figure FDA0003639050650000021
编码为句子表征hQ,将句子表征hQ分别与上下文查询注意输出特征
Figure FDA0003639050650000022
的n个特征
Figure FDA0003639050650000023
Figure FDA0003639050650000024
级联连接得到级联特征
Figure FDA0003639050650000025
将级联特征
Figure FDA0003639050650000026
依次通过一维卷积网络Conv1D以及激活函数层得到各个视频答案区间高亮部分的特征Sh,并对Sh进行线性处理得到视频答案区间高亮特征S'h;且视频答案区间高亮模块训练时所采用的损失函数为:
Lhighlight=fBCE(S'h,Textend)
上式中,Lhighlight为视频答案区间高亮模块训练时所采用的损失函数,fBCE表示二值交叉熵损失函数。
5.根据权利要求1所述的基于跨模态提示学习的视频问答方法,其特征在于,步骤4)包括:采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示,将文本问题、字幕构成的文本特征和视频答案区间高亮特征S'h构成的视觉提示一起构建输入令牌;将所述输入令牌采用嵌入模块在同一个向量空间中学习特征,从而得到用于预训练的语言模型的输入特征序列。
6.根据权利要求5所述的基于跨模态提示学习的视频问答方法,其特征在于,步骤5)包括:
5.1)将输入特征序列通过所述预训练的语言模型获得隐藏表示h,所述预训练的语言模型为DeBERTa网络,获得隐藏表示h的函数表达式为:
Figure FDA0003639050650000027
上式中,DeBERTa(x)表示输入特征序列x通过DeBERTa网络得到的结果,
Figure FDA0003639050650000028
表示维度,rh表示隐藏维度的大小,|x|表示输入特征序列x的长度;
5.2)将隐藏表示h分别通过两个单独的密集层并通过softmax激活函数得到特征l1和特征l2,两个单独的密集层的函数表达式为:
l1=softmax(W1·h+b1)
l2=softmax(W2·h+b2)
上式中,softmax表示softmax激活函数,softmax激活函数沿序列的维度应用,权重
Figure FDA00036390506500000210
Figure FDA0003639050650000031
偏置值b1,b2∈R,R表示实数;
5.3)根据下式计算得到文本问题的字幕跨度[s,e]并输出;
Figure FDA0003639050650000032
Figure FDA0003639050650000033
上式中,s表示文本问题的字幕跨度的起始位置,e表示文本问题的字幕跨度的结束位置。
7.根据权利要求1所述的基于跨模态提示学习的视频问答方法,其特征在于,步骤1)之前还包括识别示教视频的步骤:
S1)针对被识别的视频及其对应的视频标题和字幕,通过预先完成训练的目标分类模型,确定视频的类型为目标视频还是非目标视频,如果是目标视频,则跳转下一步;否则,结束并退出;
S2)针对被识别的目标视频及其对应的视频标题和字幕,通过预先完成训练的示教分类模型,确定目标视频的类型为示教视频还是非示教视频,如果是示教视频,则跳转步骤1);否则,结束并退出。
8.根据权利要求7所述的基于跨模态提示学习的视频问答方法,其特征在于,所述目标分类模型和示教分类模型进行分类的步骤包括:
S1.1,通过单模态视频分类模型进行二元分类预测:首先,将被识别视频的视频标题与字幕连接起来,字幕被分割成文本跨度,并采用分隔符形成标记化标记;然后,通过DeBERTa网络模型对标记化标记进行编码,再依次通过一个池化层进行平均池化、一个全连接层进行全连接处理,得到二元分类预测的二进制分类标签;通过跨模态视频分类模型进行二元分类预测:首先,对于文本模态,将字幕通过嵌入层进行字符嵌入得到字符向量,再输入到预训练的DeBERTa网络模型并经过池化层进行平均池化处理以获得文本特征;对于视觉模态,通过下采样提取原始帧,以统一的时间间隔从每个视频中导出;使用现有的图像三维卷积网络I3D和二维卷积模块Convolution-2D获取视觉特征;然后通过执行上下文查询连接以联合对齐文本特征和视觉特征,并通过全连接层输出二元分类预测的二进制分类标签;
S1.2,针对单模态视频分类模型、跨模态视频分类模型进行二元分类预测的结果,采用Bagging算法对上述单模态视频分类模型、跨模态视频分类模型两个模型的二元分类预测的结果进行投票,将得票更多的二进制分类标签作为最终的二元分类预测的结果。
9.一种基于跨模态提示学习的视频问答系统,包括相互连接的微处理器和存储器,其特征在于,该微处理器被编程或配置以执行权利要求1~8中任意一项所述基于跨模态提示学习的视频问答方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,该计算机程序用于被微处理器编程或配置以执行权利要求1~8中任意一项所述基于跨模态提示学习的视频问答方法的步骤。
CN202210510047.7A 2022-05-11 2022-05-11 基于跨模态提示学习的视频问答方法与系统 Pending CN114996513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210510047.7A CN114996513A (zh) 2022-05-11 2022-05-11 基于跨模态提示学习的视频问答方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210510047.7A CN114996513A (zh) 2022-05-11 2022-05-11 基于跨模态提示学习的视频问答方法与系统

Publications (1)

Publication Number Publication Date
CN114996513A true CN114996513A (zh) 2022-09-02

Family

ID=83027975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210510047.7A Pending CN114996513A (zh) 2022-05-11 2022-05-11 基于跨模态提示学习的视频问答方法与系统

Country Status (1)

Country Link
CN (1) CN114996513A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599901A (zh) * 2022-12-14 2023-01-13 中国人民解放军国防科技大学(Cn) 基于语义提示的机器问答方法、装置、设备及存储介质
CN116416480A (zh) * 2023-06-09 2023-07-11 清华大学 一种基于多模板提示学习的视觉分类方法和装置
CN117274388A (zh) * 2023-10-17 2023-12-22 四川大学 基于视觉文本关系对齐的无监督三维视觉定位方法及系统
CN117312530A (zh) * 2023-11-10 2023-12-29 北京百度网讯科技有限公司 问卷调查、模型训练方法、装置、设备、介质及产品
CN117876940A (zh) * 2024-03-11 2024-04-12 浪潮电子信息产业股份有限公司 视频语言任务执行及其模型训练方法、装置、设备、介质
CN117876940B (zh) * 2024-03-11 2024-05-31 浪潮电子信息产业股份有限公司 视频语言任务执行及其模型训练方法、装置、设备、介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599901A (zh) * 2022-12-14 2023-01-13 中国人民解放军国防科技大学(Cn) 基于语义提示的机器问答方法、装置、设备及存储介质
CN116416480A (zh) * 2023-06-09 2023-07-11 清华大学 一种基于多模板提示学习的视觉分类方法和装置
CN116416480B (zh) * 2023-06-09 2023-08-25 清华大学 一种基于多模板提示学习的视觉分类方法和装置
CN117274388A (zh) * 2023-10-17 2023-12-22 四川大学 基于视觉文本关系对齐的无监督三维视觉定位方法及系统
CN117274388B (zh) * 2023-10-17 2024-04-12 四川大学 基于视觉文本关系对齐的无监督三维视觉定位方法及系统
CN117312530A (zh) * 2023-11-10 2023-12-29 北京百度网讯科技有限公司 问卷调查、模型训练方法、装置、设备、介质及产品
CN117876940A (zh) * 2024-03-11 2024-04-12 浪潮电子信息产业股份有限公司 视频语言任务执行及其模型训练方法、装置、设备、介质
CN117876940B (zh) * 2024-03-11 2024-05-31 浪潮电子信息产业股份有限公司 视频语言任务执行及其模型训练方法、装置、设备、介质

Similar Documents

Publication Publication Date Title
Rodriguez et al. Proposal-free temporal moment localization of a natural-language query in video using guided attention
US11657230B2 (en) Referring image segmentation
CN114996513A (zh) 基于跨模态提示学习的视频问答方法与系统
Shen et al. Learning to segment actions from visual and language instructions via differentiable weak sequence alignment
CN111263238B (zh) 基于人工智能的生成视频评论的方法及设备
CN111524593B (zh) 基于上下文语言模型和知识嵌入的医疗问答方法及系统
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN113822368A (zh) 一种基于无锚的增量式目标检测方法
CN113312912A (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN115906857A (zh) 一种基于词汇增强的中医文本命名实体识别方法
US11445267B1 (en) Low-latency captioning system
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN115661710A (zh) 一种视频描述生成方法、装置及存储介质
CN114612826A (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN114511813A (zh) 视频语义描述方法及装置
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds
Liu et al. Attention-based convolutional LSTM for describing video
US20240046085A1 (en) Low-latency Captioning System
Preethi et al. Video Captioning using Pre-Trained CNN and LSTM
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
Jeppiaar Generation of Image Caption Using CNN-LSTM Based Approach
Kavitha et al. Deep learning-based image captioning for visually impaired people

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination