CN114048350A - 一种基于细粒度跨模态对齐模型的文本-视频检索方法 - Google Patents
一种基于细粒度跨模态对齐模型的文本-视频检索方法 Download PDFInfo
- Publication number
- CN114048350A CN114048350A CN202111312220.4A CN202111312220A CN114048350A CN 114048350 A CN114048350 A CN 114048350A CN 202111312220 A CN202111312220 A CN 202111312220A CN 114048350 A CN114048350 A CN 114048350A
- Authority
- CN
- China
- Prior art keywords
- video
- text
- graph
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于细粒度跨模态对齐模型的文本‑视频检索方法,所述文本‑视频检索方法包括以下步骤:(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征;本发明利用图自编码器在跨模态文本‑视频检索中进行文本‑视频两种模态间的细粒度交互建模,实现更好的跨模态检索性能。
Description
技术领域
本发明主要涉及信息检索的技术领域,具体为一种基于细粒度跨模态对齐模型的文本-视频检索方法。
背景技术
近年来,随着社交媒体平台(Facebook、Twitter)和视频分享平台(YouTube、TikTok)的普及,网络中多媒体数据(图像、文本、音频、视频)呈指数级增长,人们迫切需求一种根据查询内容高效地检索不同模态数据的技术。
跨模态文本-视频检索技术旨在根据用户查询的文本(视频)检索与其查询语义内容最相似的视频(文本)。该技术主要面临的问题是由于文本和视频两种不同模态之间的异构性,妨碍了不同模态之间的对齐。
该技术现有的方法一般模式是学习一个公共学习空间,在公共学习空间中直接测量模型学习到的全局或局部的文本和视频特征之间的距离,作为文本和视频间的相似度,相似度越高则表示视频和查询文本的内容越相关,反之亦然。但这些方法只是粗略地捕捉了不同模态之间的对应关系,无法捕捉视频和文本之间的细粒度交互。对于简单的只包含单个动作/事件的检索情景下能够实现精确检索,但对于更真实的复杂情景下的检索效果差强人意。
为了更好地捕捉这种细粒度的对齐关系,该技术领域近期研究了基于跨模态交互的检索方法。这些方法大都基于各种不同的注意力机制来对齐视频和文本之间的语义内容。虽然这些方法可以发现不同模态间细粒度的对应关系,从而实现性能的提升,但由于视频和文本之间存在天然的异构性差异,现有的基于注意力机制的方法可能无法很好地捕捉到和查询文本对应的视频子动作/子事件片段。并且,现有研究在很大程度上忽视了跨模态学习中视频子动作/子事件片段与句子短语之间的细粒度交互作用。从而,针对涉及到多个连贯的子动作/子事件片段的现实情景下,其检索性能往往是不能令人满意的。
发明内容
在检索复杂语义内容的情景下,视频包含了一系列具有复杂相互关系的组成对象,并且视频中的对象往往在其对应的查询文本中表现出不同程度的重要性,因此,对基于查询文本语义内容的细粒度视频特征建模是十分关键的;相比于查询文本,视频通常包含更为丰富和直观的语义内容,因为视频比对应文本包含更多的无意义的语义内容,仅简单的使用模型提取每一帧的帧级特征然后将帧级特征聚合成视频特征的做法会导致严重的信息冗余。
本发明主要提供了一种基于细粒度跨模态对齐模型的文本-视频检索方法,用于在视频和文本两种模态之间挖掘和增强有意义的语义信息,以解决现有技术中冗余无用的语义信息,从而实现了更好的跨模态检索性能的目的。
为实现上述目的,本发明采用的技术方案为:
一种基于细粒度跨模态对齐模型的文本-视频检索方法,其特征在于,所述文本-视频检索方法包括以下步骤:
(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;
(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;
(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征。
进一步的,所述视频嵌入特征学习包括以下步骤:
1)首先是对视频的预处理,给定一个视频V,以预先指定的采样频率从视频V中进行均匀采样,得到一个视频帧序列,表示为{v1,v2,…,vN},其中下标N表示该序列中视频帧的长度;使用预先训练的I3D模型来提取视频的帧级特征表示,具体来说,将一个视频帧的前连续四帧和后连续四帧构成的视频子片段输入到I3D模型中,输出的最终特征作为当前视频帧的特征表示;最终将视频帧序列{v1,v2,…,vN}处理成视频片段特征表示,表示为其中ft是第t帧的维度为dv的一维特征向量;
2)然后是视频特征向量的聚类,采用K-means算法将原始的视频帧进行聚类,其中K为视频中可能出现子动作/子事件的最大数目;具体为,使用Calinski-Harbasz评分来评估通过视频特征生成的簇,分值越高则代表聚类越好;按时序来分割每个视频特征即将每个视频帧特征ft分配到簇的其中一个;利用视频帧的时间戳对簇进行排序,得到排序后的簇,用于后续的解码;
3)为了进一步将簇的特征表达Ci转换为同一维度的向量用于跨模态的对齐;对每个簇特征表达采用平均池化操作,并将池化后的结果视为簇特征接一个线性映射,具体表达式为: 其中是视频每个簇的嵌入特征, 是可学习的变换矩阵,是偏置项,最后视频片段的嵌入特征表示是所有语义单元表示的集合
进一步的,所述文本嵌入特征学习包括以下步骤:给定一个包含M个词{w1,w2,…,wM}的查询文本Q,首先用现成的StanfordCoreNLP工具包,将查询文本Q拆解成一串短语为了对每个短语sj中词之间的上下文关系进行建模,将这一连串的短语输入到一个预训练的BERT语言表征模型,取其最后一层的768维的隐藏态来表示整个短语的信息,记作然后用一个门控模块来将短语表征转换成嵌入特征最终查询文本的嵌入特征表示是所有短语特征的集合
进一步的,所述步骤三中具体包括以下步骤:
首先定义无向二分图为G={V,E,X},其中V={x1,x2,…,xn}表示所有视觉和文本语义单元的节点集合,E是节点间链接权重集合,可以用一个邻接矩阵A=[aij]∈Rn×n来表示,X是所有节点的特征矩阵,即 表示级联操作,n表示节点的数量,d*表示X的维度,在一般的链接预测问题中,图中链接的权重由输入数据决定;相比之下,图的权重是根据节点特征之间的语义相似度进行初始化的;用于更新节点的特征表达,并获取图G={V,E,X}的链接权重;图自编码器由一个两层的图卷积编码器和一个内积解码器构成;编码器能对齐视觉和文本语义单元,并获得关系增强后的视频和文本特征用于文本-视频检索。
进一步的,所述图卷积编码器的具体运行方法如下:
图卷积网络以图为输入,对其进行计算,并返回每个对象节点更新后的特征作为输出;对于二分图G,采用一个非线性变换操作将输入特征X映射到一个交互空间中;通过内积相似度来构造图的边关系:图卷积网络由几层相同构造的网络叠加在一起构成,单个图卷积层以定义为: 堆叠多层图卷积网络的表达式为: 网络的最终输出是Z1:L=[Z1,…,ZL];最后一层图卷积网络的输出作为节点表征。
进一步的,所述内积解码器的具体运行方法如下:
内积解码器用于重构邻接矩阵并且动态地挖掘视觉和文本语义单元之间有价值的链接;编码器生成的表征已经包含丰富的内容和结构信息,可采用简单的内积解码器,通过重构邻接矩阵来预测视觉和文本语义单元之间的链接权重;重构后的邻接矩阵可表示为:
进一步的,所述联合嵌入学习包括以下步骤:
通过跨模态对齐方法生成的对齐后的视频和文本特征表示在其之上使用自注意力池化操作来得到最终的视频和文本嵌入表示,该操作由两个全连接层、一个tanh激活函数和在上进行的softmax激活函数构成,从而获得池化后的视频和文本特征;生成后的视频特征和文本特征表达式如下:
采用基于排序的三元损失函数来优化联合嵌入学习的性能;由于采用视频到文本的检索以及文本到视频的检索,因此损失函数的输入由两个三元组组成,即(T,O,O_)和(O,T,T_),三元组的第一个元素是一个视频(O)或一个文本查询(T),接下来的是一个正样例和一个来自不同模态的负样例,公式为:
与现有技术相比,本发明的有益效果为:
从视频和文本句子的细粒度交互建模的角度出发,利用图自编码器在跨模态文本-视频检索中进行文本-视频两种模态间的细粒度交互建模,从而更好的利用视频中的细粒度对象和动作信息,实现更好的跨模态检索性能。
以下将结合附图与具体的实施例对本发明进行详细的解释说明。
附图说明
图1为本发明的模型运行流程示意图;
具体实施方式
为了使本技术领域的人员更好地理解本发明,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供的一种基于细粒度跨模态对齐模型的文本-视频检索方法,对视频中的片段部分和文本句子中的短语部分之间进行交互式建模从而实现跨模态细粒度的对齐,进而提高跨模态文本-视频检索的性能。
本发明基于图自编码器(Graph Auto-Encoder,GAE),将视频中片段单元和文本中短语短文的交互建模转换成一个链接预测问题(link prediction problem),以获得视频和文本之间显式关系并增强对齐后的特征表示,以实现细粒度的跨模态对齐。
如图1所示,所述文本-视频检索方法提出的跨模态对齐模型包括:视频嵌入特征学习模块,用于在多个不同粒度等级上提取视频语义单元特征;文本嵌入特征学习模块,该模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;联合嵌入学习模块,该模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征。
本发明的文本-视频检索方法具体包括以下步骤:
(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;
(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;
(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征。
在本发明中,所述视频嵌入特征学习包括以下步骤:
1)首先是对视频的预处理,给定一个视频V,以预先指定的采样频率从视频V中进行均匀采样,得到一个视频帧序列,表示为{v1,v2,…,vN},其中下标N表示该序列中视频帧的长度;使用预先训练的I3D模型来提取视频的帧级特征表示,具体来说,将一个视频帧的前连续四帧和后连续四帧构成的视频子片段输入到I3D模型中,输出的最终特征作为当前视频帧的特征表示;最终将视频帧序列{v1,v2,…,vN}处理成视频片段特征表示,表示为其中ft是第t帧的维度为dv的一维特征向量;
2)然后是视频特征向量的聚类,采用K-means算法将原始的视频帧进行聚类,其中K为视频中可能出现子动作/子事件的最大数目;具体为,使用Calinski-Harbasz评分来评估通过视频特征生成的簇,分值越高则代表聚类越好;按时序来分割每个视频特征即将每个视频帧特征ft分配到簇的其中一个;利用视频帧的时间戳对簇进行排序,得到排序后的簇,用于后续的解码;
3)为了进一步将簇的特征表达Ci转换为同一维度的向量用于跨模态的对齐;对每个簇特征表达采用平均池化操作,并将池化后的结果视为簇特征接一个线性映射,具体表达式为: 其中是视频每个簇的嵌入特征, 是可学习的变换矩阵,是偏置项,最后视频片段的嵌入特征表示是所有语义单元表示的集合
在本发明中,所述文本嵌入特征学习包括以下步骤:给定一个包含M个词{w1,w2,…,wM}的查询文本Q,首先用现成的StanfordCoreNLP工具包,将查询文本Q拆解成一串短语为了对每个短语sj中词之间的上下文关系进行建模,将这一连串的短语输入到一个预训练的BERT语言表征模型,取其最后一层的768维的隐藏态来表示整个短语的信息,记作然后用一个门控模块来将短语表征 最终查询文本的嵌入特征表示是所有短语特征的集合
在本发明中,视频嵌入学习和文本嵌入学习生成了两个集合,形成了多对多的视觉和文本语义单元对;为了实现自适应的挖掘有价值的信息并抑制无用的信息,将跨模态交互建模看作链接预测问题来处理;具体来说,设计一个基于图自编码器的无向二分图,用于多对多的视觉和文本语义单元的对齐;该图有助于挖掘视觉和文本语义单元之间的显示关系,并进一步精准地捕捉跨模态的语义对齐。
利用图自编码器进行跨模态对齐,包括以下步骤:
首先定义无向二分图为G={V,E,X},其中V={x1,x2,…,xn}表示所有视觉和文本语义单元的节点集合,E是节点间链接权重集合,可以用一个邻接矩阵A=[aij]∈Rn×n来表示,X是所有节点的特征矩阵,即 表示级联操作,n表示节点的数量,d*表示X的维度,在一般的链接预测问题中,图中链接的权重由输入数据决定;相比之下,图的权重是根据节点特征之间的语义相似度进行初始化的;用于更新节点的特征表达,并获取图G={V,E,X}的链接权重;图自编码器由一个两层的图卷积编码器和一个内积解码器构成;编码器能对齐视觉和文本语义单元,并获得关系增强后的视频和文本特征用于文本-视频检索。
所述图卷积编码器和内积解码器的具体运行流程如下:
1)图卷积编码器旨在通过构造好的二分图结构来将原始的视频和文本特征转换成关系增强后的视频和文本特征;图卷积网络(Graph Convolutional Network,GCN)以图为输入,对其进行计算,并返回每个对象节点更新后的特征作为输出;对于二分图G,采用一个非线性变换操作将输入特征X映射到一个交互空间中;为了动态地挖掘视觉语义单元的关联短语(或是短语的关联视觉语义单元),通过内积相似度来构造图的边关系:A=φ(X)φ(X)T⊙M';
其中A表示初始化的邻接矩阵,φ表示用于学习连接异构节点的边链接权重的非线性变换操作,M'∈{0,1}n×n是用于构造二分图的掩码矩阵,⊙是矩阵逐元素相乘操作。图卷积网络能由几层相同构造的网络叠加在一起构成;单个图卷积层可以定义为:
为了提取多层的图特征矩阵,堆叠多层图卷积网络,如表达式所示:
2)内积解码器用于重构邻接矩阵并且动态地挖掘视觉和文本语义单元之间有价值的链接;编码器生成的表征已经包含丰富的内容和结构信息,可采用简单的内积解码器,通过重构邻接矩阵来预测视觉和文本语义单元之间的链接权重;重构后的邻接矩阵可表示为:
3)重构损失函数;为了有效地表示增强后的视频和文本特征ZL,需要保证重构后的邻接矩阵与初始化的邻接矩阵A具有一致性;因此,采用交叉熵损失函数来测量自编码器的近似误差;这一方法通过测量和A之间的差值来最小化重构损失,公式为:
所述基于跨模态细粒度对齐模型的文本-视频检索的算法如下所示:
在本发明中,视频和文本特征的联合嵌入学习旨在对其特征进行相似度对比。
所述联合嵌入学习包括以下步骤:
通过跨模态对齐方法生成的对齐后的视频和文本特征表示在其之上使用自注意力池化操作来得到最终的视频和文本嵌入表示,该操作由两个全连接层、一个tanh激活函数和在上进行的softmax激活函数构成,从而获得池化后的视频和文本特征;生成后的视频特征和文本特征表示成如下:
其中K是视觉语义单元的数目,J是短语的数目,⊙是逐元素矩阵相乘操作;在此基础上,采用基于排序的三元损失函数来优化联合嵌入学习的性能;由于采用视频到文本的检索以及文本到视频的检索,因此损失函数的输入由两个三元组组成,即(T,O,O_)和(O,T,T_),三元组的第一个元素是一个视频(O)或一个文本查询(T),接下来的是一个正样例和一个来自不同模态的负样例,公式为:
在本发明的实际测试阶段,对于需要查询的视频和文本使用本发明的模型分别计算出它们在联合嵌入空间的特征向量;根据该特征向量可以检索出与它语义相近的另一种模态的对应特征。
1、实验设置
在三个基准数据集上进行了实验测试:MSR-VTT,YouCook2以及VATEX,用以评估本发明提出的模型性能。
MSR-VTT数据集包含10000个视频片段,每个视频片段和20个不同的描述文本匹配。在三种不同的分割方式上进行测试:1)Full test set的测试集包含2990个视频片段;2)1k-Miech test set的测试集包含1000个视频片段;3)1k-Yu test set的测试包含1000个视频片段。
YouCook2数据集包含2000个烹饪教学视频,并将其分割为14000个视频片段,每个视频片段有与之对应的描述文本,其中3350个视频片段用于测试。
VATEX数据集是一个多语种数据集,包含了25991个视频片段用于训练,3000个视频片段用于验证,6000个视频片段用于测试,每个视频片段有对应的10个英文描述文本和10个中文描述文本。
2、评价指标
实验采用了中位序数(Median Rank,MedR)以及topK召回率(Recall rate at topK,R@K)作为模型检索准确率的评价指标。中位序数衡量正样本在检索返回的样本中的排序的中位数,值越低代表模型的准确率越高。topK召回率衡量正样本在检索返回的样本中位于前K个样本内的比例,值越高代表模型的准确率越高。
3、实验结果
表1在MSR-VTT数据集上的检索结果比对
表2在YouCook2数据集上的检索结果比对
表3在VATEX数据及上的检索结果比对
从实验结果能看出,本发明的模型在三个数据集上都超过了大多方法的检索性能,这表明了本发明提出的模型对视频语义单元和句子短语之间进行细粒度的对齐和交互建模是有效的,从而实现更好的跨模态文本-视频检索性能。
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于细粒度跨模态对齐模型的文本-视频检索方法,其特征在于,所述文本-视频检索方法包括以下步骤:
(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;
(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;
(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征。
2.根据权利要求1所述的文本-视频检索方法,其特征在于,所述视频嵌入特征学习包括以下步骤:
1)首先是对视频的预处理,给定一个视频V,以预先指定的采样频率从视频V中进行均匀采样,得到一个视频帧序列,表示为{v1,v2,…,vN},其中下标N表示该序列中视频帧的长度;使用预先训练的I3D模型来提取视频的帧级特征表示,具体来说,将一个视频帧的前连续四帧和后连续四帧构成的视频子片段输入到I3D模型中,输出的最终特征作为当前视频帧的特征表示;最终将视频帧序列{v1,v2,…,vN}处理成视频片段特征表示,表示为其中ft是第t帧的维度为dv的一维特征向量;
2)然后是视频特征向量的聚类,采用K-means算法将原始的视频帧进行聚类,其中K为视频中可能出现子动作/子事件的最大数目;具体为,使用Calinski-Harbasz评分来评估通过视频特征生成的簇,分值越高则代表聚类越好;按时序来分割每个视频特征即将每个视频帧特征ft分配到簇的其中一个;利用视频帧的时间戳对簇进行排序,得到排序后的簇,用于后续的解码;
4.根据权利要求1所述的文本-视频检索方法,其特征在于,所述步骤三中具体包括以下步骤:
8.根据权利要求7所述的文本-视频检索方法,其特征在于,所述联合嵌入学习包括以下步骤:
通过跨模态对齐方法生成的对齐后的视频和文本特征表示在其之上使用自注意力池化操作来得到最终的视频和文本嵌入表示,该操作由两个全连接层、一个tanh激活函数和在上进行的softmax激活函数构成,从而获得池化后的视频和文本特征;生成后的视频特征和文本特征表达式如下:
采用基于排序的三元损失函数来优化联合嵌入学习的性能;由于采用视频到文本的检索以及文本到视频的检索,因此损失函数的输入由两个三元组组成,即(T,O,O-)和(O,T,T-),三元组的第一个元素是一个视频(O)或一个文本查询(T),接下来的是一个正样例和一个来自不同模态的负样例,公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111312220.4A CN114048350A (zh) | 2021-11-08 | 2021-11-08 | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111312220.4A CN114048350A (zh) | 2021-11-08 | 2021-11-08 | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114048350A true CN114048350A (zh) | 2022-02-15 |
Family
ID=80207741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111312220.4A Pending CN114048350A (zh) | 2021-11-08 | 2021-11-08 | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048350A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357124A (zh) * | 2022-03-18 | 2022-04-15 | 成都考拉悠然科技有限公司 | 一种基于语言重建和图机制的视频段落定位方法 |
CN114612826A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 视频和文本相似度确定方法、装置、电子设备、存储介质 |
CN114612748A (zh) * | 2022-03-24 | 2022-06-10 | 北京工业大学 | 一种基于特征解耦的跨模态视频片段检索方法 |
CN114818737A (zh) * | 2022-06-29 | 2022-07-29 | 北京邮电大学 | 科技论文数据文本语义特征提取方法、系统及存储介质 |
CN115577118A (zh) * | 2022-09-30 | 2023-01-06 | 南京信息工程大学 | 一种基于混合分组排序和动态实体记忆规划的文本生成方法 |
CN116166843A (zh) * | 2023-03-02 | 2023-05-26 | 北京中科闻歌科技股份有限公司 | 基于细粒度感知的文本视频跨模态检索方法和装置 |
CN117076712A (zh) * | 2023-10-16 | 2023-11-17 | 中国科学技术大学 | 视频检索方法、系统、设备及存储介质 |
CN117171382A (zh) * | 2023-07-28 | 2023-12-05 | 宁波善德电子集团有限公司 | 一种基于综合特征和自然语言的车辆视频检索方法 |
CN117252274A (zh) * | 2023-11-17 | 2023-12-19 | 北京理工大学 | 一种文本音频图像对比学习方法、装置和存储介质 |
WO2023246822A1 (zh) * | 2022-06-22 | 2023-12-28 | 华为技术有限公司 | 一种图像处理方法和终端设备 |
CN117474817A (zh) * | 2023-12-26 | 2024-01-30 | 江苏奥斯汀光电科技股份有限公司 | 对合成连续图像进行内容一致化的方法 |
CN114612748B (zh) * | 2022-03-24 | 2024-06-07 | 北京工业大学 | 一种基于特征解耦的跨模态视频片段检索方法 |
-
2021
- 2021-11-08 CN CN202111312220.4A patent/CN114048350A/zh active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612826A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 视频和文本相似度确定方法、装置、电子设备、存储介质 |
CN114357124A (zh) * | 2022-03-18 | 2022-04-15 | 成都考拉悠然科技有限公司 | 一种基于语言重建和图机制的视频段落定位方法 |
CN114612748A (zh) * | 2022-03-24 | 2022-06-10 | 北京工业大学 | 一种基于特征解耦的跨模态视频片段检索方法 |
CN114612748B (zh) * | 2022-03-24 | 2024-06-07 | 北京工业大学 | 一种基于特征解耦的跨模态视频片段检索方法 |
WO2023246822A1 (zh) * | 2022-06-22 | 2023-12-28 | 华为技术有限公司 | 一种图像处理方法和终端设备 |
CN114818737B (zh) * | 2022-06-29 | 2022-11-18 | 北京邮电大学 | 科技论文数据文本语义特征提取方法、系统及存储介质 |
CN114818737A (zh) * | 2022-06-29 | 2022-07-29 | 北京邮电大学 | 科技论文数据文本语义特征提取方法、系统及存储介质 |
CN115577118B (zh) * | 2022-09-30 | 2023-05-30 | 南京信息工程大学 | 一种基于混合分组排序和动态实体记忆规划的文本生成方法 |
CN115577118A (zh) * | 2022-09-30 | 2023-01-06 | 南京信息工程大学 | 一种基于混合分组排序和动态实体记忆规划的文本生成方法 |
CN116166843B (zh) * | 2023-03-02 | 2023-11-07 | 北京中科闻歌科技股份有限公司 | 基于细粒度感知的文本视频跨模态检索方法和装置 |
CN116166843A (zh) * | 2023-03-02 | 2023-05-26 | 北京中科闻歌科技股份有限公司 | 基于细粒度感知的文本视频跨模态检索方法和装置 |
CN117171382B (zh) * | 2023-07-28 | 2024-05-03 | 宁波善德电子集团有限公司 | 一种基于综合特征和自然语言的车辆视频检索方法 |
CN117171382A (zh) * | 2023-07-28 | 2023-12-05 | 宁波善德电子集团有限公司 | 一种基于综合特征和自然语言的车辆视频检索方法 |
CN117076712A (zh) * | 2023-10-16 | 2023-11-17 | 中国科学技术大学 | 视频检索方法、系统、设备及存储介质 |
CN117076712B (zh) * | 2023-10-16 | 2024-02-23 | 中国科学技术大学 | 视频检索方法、系统、设备及存储介质 |
CN117252274B (zh) * | 2023-11-17 | 2024-01-30 | 北京理工大学 | 一种文本音频图像对比学习方法、装置和存储介质 |
CN117252274A (zh) * | 2023-11-17 | 2023-12-19 | 北京理工大学 | 一种文本音频图像对比学习方法、装置和存储介质 |
CN117474817B (zh) * | 2023-12-26 | 2024-03-15 | 江苏奥斯汀光电科技股份有限公司 | 对合成连续图像进行内容一致化的方法 |
CN117474817A (zh) * | 2023-12-26 | 2024-01-30 | 江苏奥斯汀光电科技股份有限公司 | 对合成连续图像进行内容一致化的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114048350A (zh) | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 | |
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN110390103B (zh) | 基于双编码器的短文本自动摘要方法及系统 | |
CN111897949B (zh) | 一种基于Transformer的引导性文本摘要生成方法 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN107346328B (zh) | 一种基于多粒度层级网络的跨模态关联学习方法 | |
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN115329127A (zh) | 一种融合情感信息的多模态短视频标签推荐方法 | |
CN112417097B (zh) | 一种用于舆情解析的多模态数据特征提取与关联方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN115879473B (zh) | 基于改进图注意力网络的中文医疗命名实体识别方法 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN114969304A (zh) | 基于要素图注意力的案件舆情多文档生成式摘要方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN113032552A (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN117036833B (zh) | 一种视频分类方法、装置、设备和计算机可读存储介质 | |
CN113626584A (zh) | 一种自动文本摘要生成方法、系统、计算机设备和存储介质 | |
CN116775855A (zh) | 基于Bi-LSTM的TextRank中文摘要自动生成方法 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN112883229B (zh) | 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置 | |
CN112329933B (zh) | 数据处理方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |