CN114048351A - 一种基于时空关系增强的跨模态文本-视频检索方法 - Google Patents

一种基于时空关系增强的跨模态文本-视频检索方法 Download PDF

Info

Publication number
CN114048351A
CN114048351A CN202111312233.1A CN202111312233A CN114048351A CN 114048351 A CN114048351 A CN 114048351A CN 202111312233 A CN202111312233 A CN 202111312233A CN 114048351 A CN114048351 A CN 114048351A
Authority
CN
China
Prior art keywords
video
features
text
model
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111312233.1A
Other languages
English (en)
Inventor
石楚豪
韩宁
陈静静
陈浩
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202111312233.1A priority Critical patent/CN114048351A/zh
Publication of CN114048351A publication Critical patent/CN114048351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/787Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于时空关系增强的跨模态文本‑视频检索方法,包括以下步骤:利用在大规模数据集上预训练InceptionResNetV2模型、I3D模型、ResNet‑101模型来分别提取视频全局特征和视频局部对象特征,将两种特征通过仿射变换映射到同一维度后,输入到多层时空Transformer模块中进行进一步的时空关系交互,得到视频特征;将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列,然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征,再将词嵌入向量特征输入到预先训练的BERT模型中得到文本特征;将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比;能够提高文本‑视频检索的准确度以及对复杂对象关系视频检索的鲁棒性。

Description

一种基于时空关系增强的跨模态文本-视频检索方法
技术领域
本发明主要涉及人工智能技术领域,尤其涉及视频检索的技术领域,具体为一种多媒体信息检索方法。
背景技术
跨模态文本-视频检索算法旨在给定查询文本或视频的情况下,检索到与查询内容相关的视频或文本,结果按照与查询的相似程度排序。
近年来,随着多媒体数据(如视频、图像和文本)呈指数级增长,这一现象增加了对跨模态检索更高效且准确的需求。但由于视频连续帧之间呈现的时序变化,以及视频中对象之间附加的动态关系,使得视频数据不同于静态图像,导致现有的视频检索技术无法区分具有相同视觉成分,但视觉成分关系不同的视频。
跨模态文本-视频检索技术现有的研究遵循一个趋势:在获取文本和视频特征嵌入的基础上测量文本与视频的相似性。一般情况下,视频特征获取,先是对连续视频流进行帧采样得到一系列视频帧,然后将视频帧输入到2D或3D卷积神经网络(ConvolutionalNeural Network,CNN)中提取全局级别的视频特征;或是将视频帧通过预先训练好的卷积神经网络(Graph Convolutional Network,GCN)得到一系列的局部级别的区域特征,再将区域特征输入到图卷积网络中提取特征。基于根据特征表示的粒度大小,现有的工作大致可分为基于全局特征和基于细粒度特征的方法。
基于全局特征的方法,如图1所示:该方法通常使用全局特征来分别表示整个视频和查询语句,但忽略了视频和文本中的局部细节。对于视频中只有一个或几个对象且对象之间没有复杂交互的简单场景中,该方法性能表现不错。但对于涉及到复杂的更真实的场景时,这些方法的性能通常不令人满意。
基于细粒度特征的方法则注重视频或文本的局部细节,通过检测视频和文本中的对象来进行文本和视频模态的语义对齐,如图2所示:通过对细粒度的文本和视频模态之间交互建模,跨模态文本-视频检索的性能得到了显著提高,但现有的研究只是通过图卷积神经网络捕捉简单的视频对象关系或利用注意力机制(attention mechanism)作为一个跨模态交互模块来实现不同模态之间的语义对齐。由于基于图卷积神经网络的视频对象关系建模是人为手工制作的,严重依赖于专家知识和经验,这种方法可能无法有效的挖掘和建模更高级别的细粒度视觉关系。同时,对于基于注意力机制的交互模型,虽然能选择性地将视频和文本中的关键信息进行对齐,但忽略了视频中细粒度的关系信息。
上述这些视频特征没有充分利用视频不同帧之间以及帧内不同区域对象之间的复杂时空关系,导致它们无法区分具有相同视觉成分但视觉成分关系不同的视频。
发明内容
现有技术中对于跨模态文本-视频检索任务,方法大都基于不同神经网络提取的单一的视频(文本)特征并进行相似度对比,从而得到和查询条件相似度最高的视频或文本;但不管是基于提取全局视频特征的方法,或是基于视频不同帧内对象提取细粒度局部特征进行特征对齐的方法,这些方法都没有充分利用视频内对象之间的空间和时序关系,从而无法实现高准确度和高普适性的跨模态文本-视频检索方法。
本发明主要提供了一种基于时空关系增强的跨模态文本-视频检索方法,用以解决上述现有技术中提出的无法实现高准确度和高普适性的跨模态文本-视频检索方法的问题。
本发明解决上述技术问题采用的技术方案为:
一种基于时空关系增强的跨模态文本-视频检索方法,其中,所述跨模态文本-视频检索方法包括以下步骤:(1)在视频方面,利用在大规模数据集上预训练的InceptionResNetV2模型、I3D模型、ResNet-101模型来分别提取视频全局特征和视频局部对象特征,将两种特征通过仿射变换映射到同一维度后,输入到多层时空Transformer模块中进行进一步的时空关系交互,得到时空关系增强后的视频特征;
(2)对于文本方面,将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列,然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征,再将词嵌入向量特征输入到预先训练的BERT模型中得到包含语句上下文信息的文本特征;
(3)最后将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比,文本和视频相关,相似度高,反之则相似度低,以此来检索相关视频。
与现有技术相比,本发明的有益效果为:
视频中细粒度的时空关系特征通过多层时空Transformer模块对视频中的局部对象之间的时空关系进行学习,捕获到了更高级的细粒度关系信息。
本发明利用视频中的全局视觉信息和细粒度关系信息,大大提高了跨模态文本-视频检索任务的准确度,并且本发明不仅适用于简单语义的查询条件,对于包含更复杂语义的查询,同样能实现精准检索,增强了对于复杂关系的视频检索任务的鲁棒性,从而在整体上提高了跨模态文本-视频检索性能。
以下将结合附图与具体的实施例对本发明进行详细的解释说明。
附图说明
图1为现有技术中基于全局特征的方法流程示意图;
图2为现有技术中基于细粒度特征的方法流程示意图;
图3为本发明的方法流程示意图;
具体实施方式
为了使本技术领域的人员更好地理解本发明,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明主要提供了一种基于时空关系增强的跨模态文本-视频检索方法,本方法对视频中帧内和帧间的对象之间关系进行细粒度的时空建模,捕获了更高级别的时空关系特征;同时将视频的时空关系特征和视频全局特征分别作为关系嵌入学习和视频嵌入学习映射到共同嵌入空间与文本嵌入学习分别进行相似度的比较。两者结合能够极大提高文本-视频检索的准确度以及对复杂对象关系视频检索的鲁棒性。
本发明包括一个视觉时空关系增强模型,通过时空Transformer模型处理视频特征,用于高效的文本-视频检索;所述Transformer由三部分组成:多头自注意力(multi-head self-attention,MSA)子模块、多层感知机(multi-layer perceptron,MLP)子模块以及层正规化(layer normalization,LN)子模块;上述模型通过对视频中不同对象之间的时空关系进行交互建模,极大增强视频特征的表达能力。
Transformer首先将输入特征X(矩阵维度n×d)线性转化为三个不同的部分:查询(query)Q,键(key)K,值(value)V,然后在Q,K,V上应用点乘注意力机制,具体表达式为:Q=WQX,K=WKX,V=WVX;
Figure BDA0003342079790000051
MSA(Q,K,V)=Concat(head1,…,headM)WO,
Figure BDA0003342079790000052
Figure BDA0003342079790000053
其中,WQ、WK、WV是模型中要训练的参数,Concat()为特征级联操作。
在多头自注意力子模块后接入MLP层,用于特征变化和非线性处理,具体表达式为:MLP(X)=GELU(XW1+b1)W2+b2
其中GELU为一种激活函数,W1、W2、b1、b2为模型中要训练的参数。
LN层在Transformer用于稳定训练和更快收敛,也是Transformer中的关键部分,具体表达式为:
Figure BDA0003342079790000061
其中μ和η分别是输入特征x的均值和标准差,⊙是矩阵对位相乘,γ和β分别是训练学习的参数。
如图3所示,在本发明的视频处理方面,对视频全局特征和视频局部特征分别进行时空建模处理,所述跨模态文本-视频检索方法包括以下主要步骤:(1)在视频方面,利用在大规模数据集上预训练的InceptionResNetV2模型、I3D模型、ResNet-101模型来分别提取视频全局特征和视频局部对象特征,将两种特征通过仿射变换映射到同一维度后,输入到多层时空Transformer模块中进行进一步的时空关系交互,得到时空关系增强后的视频特征;
(2)对于文本方面,将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列,然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征,再将词嵌入向量特征输入到预先训练的BERT模型中得到包含语句上下文信息的文本特征;
(3)最后将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比,文本和视频相关,相似度高,反之则相似度低,以此来检索相关视频。
在本发明实施例中,设O和q分别表示一个视频数据集和一个查询语句,查询语句中包括对于要查询的视频内容的相关描述。文本-视频检索的目标是,给定一个查询语句q,需要从视频数据集O中找到内容上与之最相关的视频o,所述跨模态文本-视频检索方法主要包括以下工作流程:
(1)视频嵌入向量学习;对于一个视频o,首先对其进行采样得到一个包含T个视频帧的长序列,分别使用预训练的2D卷积神经网络提取外观特征,使用预训练的3D卷积神经网络获得其运动特征;然后将这两个特征合并起来,得到最终的全局视频特征Fg;再将全局视频特征Fg输入到标准的多层Transformer模块中沿特征的时间维度进行视频帧特征之间的时序交互,最终得到时空关系增强后的全局视频特征Fg。
(2)对象关系嵌入向量学习;对于包含T个视频帧的长序列,采用预训练的FasterRCNN模型来检测每个帧内的对象区域,对于每个视频帧,提取N个对象区域
Figure BDA0003342079790000071
其中yt是第t个局部对象区域的特征,然后将Yt输入到时空Transformer中,分别沿时间维度和空间维度对特征进行交互和融合;具体表达式如下:
Figure BDA0003342079790000072
其中l=1,2,…,L表示时空Transformer的总层数,最终得到细粒度视频关系特征Fr。
(3)文本嵌入向量学习;对于查询文本部分,利用在大规模数据集上预训练的BERT模型对查询语句进行编码,该模型能学习查询语句中各个词之间的上下文关系。BERT包括12层Transformer模块。将查询语句输入到BERT中,最终得到全局文本特征Ft。
(4)联合嵌入向量学习;提取到视频和文本两种模态的特征后,最终的目的是要进行两种模态间的相似度比较,让语义内容相近的视频特征和文本特征在联合嵌入空间中距离相近(相似度高),而语义内容不同的两个特征距离远(相似度低)。为了实现上述效果,采用基于排序的三元损失函数来训练视频特征Fg、Fr和文本特征Ft。基于排序的三元损失函数表达式具体为:
Figure BDA0003342079790000081
Figure BDA0003342079790000082
其中δ为人为事先设定的间距参数,S(Vi,Ti)表示视频Vi和文本Ti之间的相似度,具体表达式为:
S(Vi,Ti)=λ·cosine(Fr,Ft)+(1-λ)·cosine(Fg,Ft);
其中λ为人为事先设定好的权重因子,Fr、Fg、Ft分别表示细粒度视频关系特征、全局视频特征、全局文本特征,cosine(,)为余弦相似度计算,具体表达式为:
Figure BDA0003342079790000083
在本发明的实际测试阶段,对于需要查询的视频和文本使用本发明的模型分别计算出它们在联合嵌入空间的特征向量。根据该特征向量可以检索出与它语义相近的另一种模态的对应特征。
1.实验设置
在两个基准数据集上进行了实验测试:MSR-VTT和MSVD,用以评估本发明提出的模型性能。
MSR-VTT数据集包含10000个视频片段,每个视频片段和20个不同的描述文本匹配。在两种不同的分割方式上进行测试:1)7K Data Split的训练集包含7010个视频片段,测试集包含1000个视频片段;2)9k Data Split的训练集集包含9000个视频片段,测试集包含1000个视频片段。
MSVD数据集包含1970个Youtube视频片段,每个视频都有大约40个描述句子与之对应。本实验中使用了普遍使用的分割方法,1200个视频片段用于训练,100个视频片段用于验证,670个视频用于测试。
2.评价指标
实验采用了中位序数(Median Rank,MedR)以及topK召回率(Recall rate at topK,R@K)作为模型检索准确率的评价指标。中位序数衡量正样本在检索返回的样本中的排序的中位数,值越低代表模型的准确率越高。topK召回率衡量正样本在检索返回的样本中位于前K个样本内的比例,值越高代表模型的准确率越高。
3.实验结果
表1在MSR-VTT数据集上的结果比对
Figure BDA0003342079790000091
表2在MSVD数据集上的结果比对
Figure BDA0003342079790000092
Figure BDA0003342079790000101
如上表1-2所示,本发明的模型在两个数据集上都比大多方法的检索性能优越,这说明本发明的模型能利用视频中细粒度的时空关系特征增强了视频的全局特征表达。
模型首次提出对视频中细粒度的时空关系特征通过多层时空Transformer模块对视频中的局部对象之间的时空关系进行学习,捕获到了更高级的细粒度关系信息。
本发明利用视频中的全局视觉信息和细粒度关系信息,大大提高了跨模态文本-视频检索任务的准确度,并且本发明不仅适用于简单语义的查询条件,对于包含更复杂语义的查询,同样能实现精准检索,增强了对于复杂关系的视频检索任务的鲁棒性,从而在整体上提高了跨模态文本-视频检索性能。
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于时空关系增强的跨模态文本-视频检索方法,其特征在于,所述跨模态文本-视频检索方法包括以下步骤:(1)在视频方面,利用在大规模数据集上预训练的InceptionResNetV2模型、I3D模型、ResNet-101模型来分别提取视频全局特征和视频局部对象特征,将两种特征通过仿射变换映射到同一维度后,输入到多层时空Transformer模块中进行进一步的时空关系交互,得到时空关系增强后的视频特征;
(2)对于文本方面,将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列,然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征,再将词嵌入向量特征输入到预先训练的BERT模型中得到包含语句上下文信息的文本特征;
(3)最后将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比,文本和视频相关,相似度高,反之则相似度低,以此来检索相关视频。
2.根据权利要求1所述的跨模态文本-视频检索方法,其特征在于,所述时空Transformer包括多头自注意力子模块、多层感知机子模块以及层正规化子模块,且在时空Transformer中还包括:将输入特征X线性转化为三个不同的部分:查询Q,键K,值V,然后在Q,K,V上应用点乘注意力机制,具体表达式为:
Figure FDA0003342079780000011
Figure FDA0003342079780000012
在多头自注意力子模块后接入多层感知机子模块,用于特征变化和非线性处理,具体表达式为:MLP(X)=GELU(XW1+b1)W2+b2
LN层在Transformer用于稳定训练和更快收敛,具体表达式为:
Figure FDA0003342079780000021
3.根据权利要求1所述的跨模态文本-视频检索方法,其特征在于,所述跨模态文本-视频检索方法还包括以下具体步骤:
(1)视频嵌入向量学习;对于一个视频o,首先对其进行采样得到一个包含T个视频帧的长序列,分别使用预训练的2D卷积神经网络提取外观特征,使用预训练的3D卷积神经网络获得其运动特征;然后将这两个特征合并起来,得到最终的全局视频特征Fg;再将全局视频特征Fg输入到标准的多层Transformer模块中沿特征的时间维度进行视频帧特征之间的时序交互,最终得到时空关系增强后的全局视频特征Fg;
(2)对象关系嵌入向量学习;对于包含T个视频帧的长序列,采用预训练的Faster RCNN模型来检测每个帧内的对象区域,对于每个视频帧,提取N个对象区域
Figure FDA0003342079780000022
其中yt是第t个局部对象区域的特征,然后将Yt输入到时空Transformer中,分别沿时间维度和空间维度对特征进行交互和融合;具体表达式如下:
Figure FDA0003342079780000023
(3)文本嵌入向量学习;对于查询文本部分,利用在大规模数据集上预训练的BERT模型对查询语句进行编码,该模型能学习查询语句中各个词之间的上下文关系,BERT包括12层Transformer模块;将查询语句输入到BERT中,最终得到全局文本特征Ft。
(4)联合嵌入向量学习;提取到视频和文本两种模态的特征后,采用基于排序的三元损失函数来训练视频特征Fg、Fr和文本特征Ft。基于排序的三元损失函数表达式具体为:
Figure FDA0003342079780000031
Figure FDA0003342079780000032
S(Vi,Ti)表示视频Vi和文本Ti之间的相似度,具体表达式为:S(Vi,Ti)=λ·cosine(Fr,Ft)+(1-λ)·cosine(Fg,Ft);cosine(,)为余弦相似度计算,表达式为:
Figure FDA0003342079780000033
CN202111312233.1A 2021-11-08 2021-11-08 一种基于时空关系增强的跨模态文本-视频检索方法 Pending CN114048351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111312233.1A CN114048351A (zh) 2021-11-08 2021-11-08 一种基于时空关系增强的跨模态文本-视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111312233.1A CN114048351A (zh) 2021-11-08 2021-11-08 一种基于时空关系增强的跨模态文本-视频检索方法

Publications (1)

Publication Number Publication Date
CN114048351A true CN114048351A (zh) 2022-02-15

Family

ID=80207746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111312233.1A Pending CN114048351A (zh) 2021-11-08 2021-11-08 一种基于时空关系增强的跨模态文本-视频检索方法

Country Status (1)

Country Link
CN (1) CN114048351A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972774A (zh) * 2022-04-20 2022-08-30 平安科技(深圳)有限公司 特定区域的图像描述生成方法、装置、设备及存储介质
CN116166843A (zh) * 2023-03-02 2023-05-26 北京中科闻歌科技股份有限公司 基于细粒度感知的文本视频跨模态检索方法和装置
WO2023168818A1 (zh) * 2022-03-09 2023-09-14 平安科技(深圳)有限公司 视频和文本相似度确定方法、装置、电子设备、存储介质
CN117593934A (zh) * 2024-01-17 2024-02-23 长春职业技术学院 一种基于工业机器人的虚拟仿真实训系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191075A (zh) * 2019-12-31 2020-05-22 华南师范大学 基于双重编码与联合的跨模态检索方法、系统及存储介质
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
US20200302294A1 (en) * 2019-03-22 2020-09-24 Nec Laboratories America, Inc. Efficient and fine-grained video retrieval
US20210150255A1 (en) * 2017-07-06 2021-05-20 Peking University Shenzhen Graduate School Method of bidirectional image-text retrieval based on multi-view joint embedding space

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150255A1 (en) * 2017-07-06 2021-05-20 Peking University Shenzhen Graduate School Method of bidirectional image-text retrieval based on multi-view joint embedding space
US20200302294A1 (en) * 2019-03-22 2020-09-24 Nec Laboratories America, Inc. Efficient and fine-grained video retrieval
CN111191075A (zh) * 2019-12-31 2020-05-22 华南师范大学 基于双重编码与联合的跨模态检索方法、系统及存储介质
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨玉亭;冯林;代磊超;苏菡;: "面向上下文注意力联合学习网络的方面级情感分类模型", 模式识别与人工智能, no. 08, 15 August 2020 (2020-08-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023168818A1 (zh) * 2022-03-09 2023-09-14 平安科技(深圳)有限公司 视频和文本相似度确定方法、装置、电子设备、存储介质
CN114972774A (zh) * 2022-04-20 2022-08-30 平安科技(深圳)有限公司 特定区域的图像描述生成方法、装置、设备及存储介质
CN116166843A (zh) * 2023-03-02 2023-05-26 北京中科闻歌科技股份有限公司 基于细粒度感知的文本视频跨模态检索方法和装置
CN116166843B (zh) * 2023-03-02 2023-11-07 北京中科闻歌科技股份有限公司 基于细粒度感知的文本视频跨模态检索方法和装置
CN117593934A (zh) * 2024-01-17 2024-02-23 长春职业技术学院 一种基于工业机器人的虚拟仿真实训系统
CN117593934B (zh) * 2024-01-17 2024-04-05 长春职业技术学院 一种基于工业机器人的虚拟仿真实训系统

Similar Documents

Publication Publication Date Title
Gabeur et al. Multi-modal transformer for video retrieval
CN111581510B (zh) 分享内容处理方法、装置、计算机设备和存储介质
Surís et al. Cross-modal embeddings for video and audio retrieval
CN114048351A (zh) 一种基于时空关系增强的跨模态文本-视频检索方法
CN111324769A (zh) 视频信息处理模型的训练方法、视频信息处理方法及装置
CN111400591A (zh) 资讯信息推荐方法、装置、电子设备及存储介质
Guo et al. Ssan: Separable self-attention network for video representation learning
CN113642604A (zh) 一种基于云边协同的音视频辅助触觉信号重建方法
Adler et al. Probabilistic subspace clustering via sparse representations
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
US20230103148A1 (en) Hierarchical Video Encoders
CN112115253A (zh) 基于多视角注意力机制的深度文本排序方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索系统
Alkalouti et al. Encoder-decoder model for automatic video captioning using yolo algorithm
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
US20240119716A1 (en) Method for multimodal emotion classification based on modal space assimilation and contrastive learning
CN112860916A (zh) 一种面向影视的多层次知识图谱生成方法
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
Ma et al. Multi-scale cooperative multimodal transformers for multimodal sentiment analysis in videos
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116543339A (zh) 一种基于多尺度注意力融合的短视频事件检测方法及装置
Xue et al. A multi-modal fusion framework for continuous sign language recognition based on multi-layer self-attention mechanism
Huang et al. A Multi-Stage Vision Transformer for Fine-grained Image Classification
CN114329181A (zh) 一种题目推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination