CN114048350A - 一种基于细粒度跨模态对齐模型的文本-视频检索方法 - Google Patents

一种基于细粒度跨模态对齐模型的文本-视频检索方法 Download PDF

Info

Publication number
CN114048350A
CN114048350A CN202111312220.4A CN202111312220A CN114048350A CN 114048350 A CN114048350 A CN 114048350A CN 202111312220 A CN202111312220 A CN 202111312220A CN 114048350 A CN114048350 A CN 114048350A
Authority
CN
China
Prior art keywords
video
text
graph
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111312220.4A
Other languages
English (en)
Inventor
韩宁
陈静静
陈浩
张�浩
曾雅文
石楚豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202111312220.4A priority Critical patent/CN114048350A/zh
Publication of CN114048350A publication Critical patent/CN114048350A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于细粒度跨模态对齐模型的文本‑视频检索方法,所述文本‑视频检索方法包括以下步骤:(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征;本发明利用图自编码器在跨模态文本‑视频检索中进行文本‑视频两种模态间的细粒度交互建模,实现更好的跨模态检索性能。

Description

一种基于细粒度跨模态对齐模型的文本-视频检索方法
技术领域
本发明主要涉及信息检索的技术领域,具体为一种基于细粒度跨模态对齐模型的文本-视频检索方法。
背景技术
近年来,随着社交媒体平台(Facebook、Twitter)和视频分享平台(YouTube、TikTok)的普及,网络中多媒体数据(图像、文本、音频、视频)呈指数级增长,人们迫切需求一种根据查询内容高效地检索不同模态数据的技术。
跨模态文本-视频检索技术旨在根据用户查询的文本(视频)检索与其查询语义内容最相似的视频(文本)。该技术主要面临的问题是由于文本和视频两种不同模态之间的异构性,妨碍了不同模态之间的对齐。
该技术现有的方法一般模式是学习一个公共学习空间,在公共学习空间中直接测量模型学习到的全局或局部的文本和视频特征之间的距离,作为文本和视频间的相似度,相似度越高则表示视频和查询文本的内容越相关,反之亦然。但这些方法只是粗略地捕捉了不同模态之间的对应关系,无法捕捉视频和文本之间的细粒度交互。对于简单的只包含单个动作/事件的检索情景下能够实现精确检索,但对于更真实的复杂情景下的检索效果差强人意。
为了更好地捕捉这种细粒度的对齐关系,该技术领域近期研究了基于跨模态交互的检索方法。这些方法大都基于各种不同的注意力机制来对齐视频和文本之间的语义内容。虽然这些方法可以发现不同模态间细粒度的对应关系,从而实现性能的提升,但由于视频和文本之间存在天然的异构性差异,现有的基于注意力机制的方法可能无法很好地捕捉到和查询文本对应的视频子动作/子事件片段。并且,现有研究在很大程度上忽视了跨模态学习中视频子动作/子事件片段与句子短语之间的细粒度交互作用。从而,针对涉及到多个连贯的子动作/子事件片段的现实情景下,其检索性能往往是不能令人满意的。
发明内容
在检索复杂语义内容的情景下,视频包含了一系列具有复杂相互关系的组成对象,并且视频中的对象往往在其对应的查询文本中表现出不同程度的重要性,因此,对基于查询文本语义内容的细粒度视频特征建模是十分关键的;相比于查询文本,视频通常包含更为丰富和直观的语义内容,因为视频比对应文本包含更多的无意义的语义内容,仅简单的使用模型提取每一帧的帧级特征然后将帧级特征聚合成视频特征的做法会导致严重的信息冗余。
本发明主要提供了一种基于细粒度跨模态对齐模型的文本-视频检索方法,用于在视频和文本两种模态之间挖掘和增强有意义的语义信息,以解决现有技术中冗余无用的语义信息,从而实现了更好的跨模态检索性能的目的。
为实现上述目的,本发明采用的技术方案为:
一种基于细粒度跨模态对齐模型的文本-视频检索方法,其特征在于,所述文本-视频检索方法包括以下步骤:
(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;
(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;
(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征。
进一步的,所述视频嵌入特征学习包括以下步骤:
1)首先是对视频的预处理,给定一个视频V,以预先指定的采样频率从视频V中进行均匀采样,得到一个视频帧序列,表示为{v1,v2,…,vN},其中下标N表示该序列中视频帧的长度;使用预先训练的I3D模型来提取视频的帧级特征表示,具体来说,将一个视频帧的前连续四帧和后连续四帧构成的视频子片段输入到I3D模型中,输出的最终特征作为当前视频帧的特征表示;最终将视频帧序列{v1,v2,…,vN}处理成视频片段特征表示,表示为
Figure BDA0003342079690000031
其中ft是第t帧的维度为dv的一维特征向量;
2)然后是视频特征向量的聚类,采用K-means算法将原始的视频帧进行聚类,其中K为视频中可能出现子动作/子事件的最大数目;具体为,使用Calinski-Harbasz评分来评估通过视频特征生成的簇,分值越高则代表聚类越好;按时序来分割每个视频特征
Figure BDA0003342079690000032
即将每个视频帧特征ft分配到簇
Figure BDA0003342079690000033
的其中一个;利用视频帧的时间戳对簇进行排序,得到排序后的簇,用于后续的解码;
3)为了进一步将簇的特征表达Ci转换为同一维度的向量用于跨模态的对齐;对每个簇特征表达采用平均池化操作,并将池化后的结果视为簇特征
Figure BDA0003342079690000041
接一个线性映射,具体表达式为:
Figure BDA0003342079690000042
Figure BDA0003342079690000043
其中
Figure BDA0003342079690000044
是视频每个簇的嵌入特征,
Figure BDA0003342079690000045
Figure BDA0003342079690000046
是可学习的变换矩阵,
Figure BDA0003342079690000047
是偏置项,最后视频片段的嵌入特征表示是所有语义单元表示的集合
Figure BDA0003342079690000048
进一步的,所述文本嵌入特征学习包括以下步骤:给定一个包含M个词{w1,w2,…,wM}的查询文本Q,首先用现成的StanfordCoreNLP工具包,将查询文本Q拆解成一串短语
Figure BDA0003342079690000049
为了对每个短语sj中词之间的上下文关系进行建模,将这一连串的短语输入到一个预训练的BERT语言表征模型,取其最后一层的768维的隐藏态来表示整个短语的信息,记作
Figure BDA00033420796900000410
然后用一个门控模块来将短语表征
Figure BDA00033420796900000411
转换成嵌入特征
Figure BDA00033420796900000412
最终查询文本的嵌入特征表示是所有短语特征的集合
Figure BDA00033420796900000413
进一步的,所述步骤三中具体包括以下步骤:
首先定义无向二分图为G={V,E,X},其中V={x1,x2,…,xn}表示所有视觉和文本语义单元的节点集合,E是节点间链接权重集合,可以用一个邻接矩阵A=[aij]∈Rn×n来表示,X是所有节点的特征矩阵,即
Figure BDA00033420796900000414
Figure BDA00033420796900000415
表示级联操作,n表示节点的数量,d*表示X的维度,在一般的链接预测问题中,图中链接的权重由输入数据决定;相比之下,图的权重是根据节点特征之间的语义相似度进行初始化的;用于更新节点的特征表达,并获取图G={V,E,X}的链接权重;图自编码器由一个两层的图卷积编码器和一个内积解码器构成;编码器能对齐视觉和文本语义单元,并获得关系增强后的视频和文本特征用于文本-视频检索。
进一步的,所述图卷积编码器的具体运行方法如下:
图卷积网络以图为输入,对其进行计算,并返回每个对象节点更新后的特征作为输出;对于二分图G,采用一个非线性变换操作将输入特征X映射到一个交互空间中;通过内积相似度来构造图的边关系:
Figure BDA0003342079690000051
图卷积网络由几层相同构造的网络叠加在一起构成,单个图卷积层以定义为:
Figure BDA0003342079690000052
Figure BDA0003342079690000053
堆叠多层图卷积网络的表达式为:
Figure BDA0003342079690000054
Figure BDA0003342079690000055
网络的最终输出是Z1:L=[Z1,…,ZL];最后一层图卷积网络的输出
Figure BDA0003342079690000056
作为节点表征。
进一步的,所述内积解码器的具体运行方法如下:
内积解码器用于重构邻接矩阵并且动态地挖掘视觉和文本语义单元之间有价值的链接;编码器生成的表征已经包含丰富的内容和结构信息,可采用简单的内积解码器,通过重构邻接矩阵来预测视觉和文本语义单元之间的链接权重;重构后的邻接矩阵
Figure BDA0003342079690000057
可表示为:
Figure BDA0003342079690000058
Figure BDA0003342079690000059
进一步的,还包括:重构损失函数,采用交叉熵损失函数来测量自编码器的近似误差;通过测量
Figure BDA00033420796900000510
和A之间的差值来最小化重构损失,公式为:
Figure BDA0003342079690000061
最终采用更新后的邻接矩阵
Figure BDA0003342079690000062
来获得关系增强后的视频和文本特征表示
Figure BDA0003342079690000063
进一步的,所述联合嵌入学习包括以下步骤:
通过跨模态对齐方法生成的对齐后的视频和文本特征表示
Figure BDA0003342079690000064
在其之上使用自注意力池化操作来得到最终的视频和文本嵌入表示,该操作由两个全连接层、一个tanh激活函数和在
Figure BDA0003342079690000065
上进行的softmax激活函数构成,从而获得池化后的视频和文本特征;生成后的视频特征
Figure BDA0003342079690000066
和文本特征
Figure BDA0003342079690000067
表达式如下:
Figure BDA0003342079690000068
采用基于排序的三元损失函数来优化联合嵌入学习的性能;由于采用视频到文本的检索以及文本到视频的检索,因此损失函数的输入由两个三元组组成,即(T,O,O_)和(O,T,T_),三元组的第一个元素是一个视频(O)或一个文本查询(T),接下来的是一个正样例和一个来自不同模态的负样例,公式为:
Figure BDA0003342079690000069
Figure BDA00033420796900000610
用于训练该模型的整体损失函数为基于排序的三元损失函数
Figure BDA00033420796900000611
与重构损失函数
Figure BDA00033420796900000612
之和,如以下公式:
Figure BDA00033420796900000613
Figure BDA00033420796900000614
与现有技术相比,本发明的有益效果为:
从视频和文本句子的细粒度交互建模的角度出发,利用图自编码器在跨模态文本-视频检索中进行文本-视频两种模态间的细粒度交互建模,从而更好的利用视频中的细粒度对象和动作信息,实现更好的跨模态检索性能。
以下将结合附图与具体的实施例对本发明进行详细的解释说明。
附图说明
图1为本发明的模型运行流程示意图;
具体实施方式
为了使本技术领域的人员更好地理解本发明,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供的一种基于细粒度跨模态对齐模型的文本-视频检索方法,对视频中的片段部分和文本句子中的短语部分之间进行交互式建模从而实现跨模态细粒度的对齐,进而提高跨模态文本-视频检索的性能。
本发明基于图自编码器(Graph Auto-Encoder,GAE),将视频中片段单元和文本中短语短文的交互建模转换成一个链接预测问题(link prediction problem),以获得视频和文本之间显式关系并增强对齐后的特征表示,以实现细粒度的跨模态对齐。
如图1所示,所述文本-视频检索方法提出的跨模态对齐模型包括:视频嵌入特征学习模块,用于在多个不同粒度等级上提取视频语义单元特征;文本嵌入特征学习模块,该模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;联合嵌入学习模块,该模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征。
本发明的文本-视频检索方法具体包括以下步骤:
(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;
(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;
(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征。
在本发明中,所述视频嵌入特征学习包括以下步骤:
1)首先是对视频的预处理,给定一个视频V,以预先指定的采样频率从视频V中进行均匀采样,得到一个视频帧序列,表示为{v1,v2,…,vN},其中下标N表示该序列中视频帧的长度;使用预先训练的I3D模型来提取视频的帧级特征表示,具体来说,将一个视频帧的前连续四帧和后连续四帧构成的视频子片段输入到I3D模型中,输出的最终特征作为当前视频帧的特征表示;最终将视频帧序列{v1,v2,…,vN}处理成视频片段特征表示,表示为
Figure BDA0003342079690000081
其中ft是第t帧的维度为dv的一维特征向量;
2)然后是视频特征向量的聚类,采用K-means算法将原始的视频帧进行聚类,其中K为视频中可能出现子动作/子事件的最大数目;具体为,使用Calinski-Harbasz评分来评估通过视频特征生成的簇,分值越高则代表聚类越好;按时序来分割每个视频特征
Figure BDA0003342079690000091
即将每个视频帧特征ft分配到簇
Figure BDA0003342079690000092
的其中一个;利用视频帧的时间戳对簇进行排序,得到排序后的簇,用于后续的解码;
3)为了进一步将簇的特征表达Ci转换为同一维度的向量用于跨模态的对齐;对每个簇特征表达采用平均池化操作,并将池化后的结果视为簇特征
Figure BDA0003342079690000093
接一个线性映射,具体表达式为:
Figure BDA0003342079690000094
Figure BDA0003342079690000095
其中
Figure BDA0003342079690000096
是视频每个簇的嵌入特征,
Figure BDA0003342079690000097
Figure BDA0003342079690000098
是可学习的变换矩阵,
Figure BDA0003342079690000099
是偏置项,最后视频片段的嵌入特征表示是所有语义单元表示的集合
Figure BDA00033420796900000910
在本发明中,所述文本嵌入特征学习包括以下步骤:给定一个包含M个词{w1,w2,…,wM}的查询文本Q,首先用现成的StanfordCoreNLP工具包,将查询文本Q拆解成一串短语
Figure BDA00033420796900000911
为了对每个短语sj中词之间的上下文关系进行建模,将这一连串的短语输入到一个预训练的BERT语言表征模型,取其最后一层的768维的隐藏态来表示整个短语的信息,记作
Figure BDA00033420796900000912
然后用一个门控模块来将短语表征
Figure BDA00033420796900000913
Figure BDA00033420796900000914
Figure BDA00033420796900000915
最终查询文本的嵌入特征表示是所有短语特征的集合
Figure BDA00033420796900000916
在本发明中,视频嵌入学习和文本嵌入学习生成了两个集合,形成了多对多的视觉和文本语义单元对;为了实现自适应的挖掘有价值的信息并抑制无用的信息,将跨模态交互建模看作链接预测问题来处理;具体来说,设计一个基于图自编码器的无向二分图,用于多对多的视觉和文本语义单元的对齐;该图有助于挖掘视觉和文本语义单元之间的显示关系,并进一步精准地捕捉跨模态的语义对齐。
利用图自编码器进行跨模态对齐,包括以下步骤:
首先定义无向二分图为G={V,E,X},其中V={x1,x2,…,xn}表示所有视觉和文本语义单元的节点集合,E是节点间链接权重集合,可以用一个邻接矩阵A=[aij]∈Rn×n来表示,X是所有节点的特征矩阵,即
Figure BDA0003342079690000101
Figure BDA0003342079690000102
表示级联操作,n表示节点的数量,d*表示X的维度,在一般的链接预测问题中,图中链接的权重由输入数据决定;相比之下,图的权重是根据节点特征之间的语义相似度进行初始化的;用于更新节点的特征表达,并获取图G={V,E,X}的链接权重;图自编码器由一个两层的图卷积编码器和一个内积解码器构成;编码器能对齐视觉和文本语义单元,并获得关系增强后的视频和文本特征用于文本-视频检索。
所述图卷积编码器和内积解码器的具体运行流程如下:
1)图卷积编码器旨在通过构造好的二分图结构来将原始的视频和文本特征转换成关系增强后的视频和文本特征;图卷积网络(Graph Convolutional Network,GCN)以图为输入,对其进行计算,并返回每个对象节点更新后的特征作为输出;对于二分图G,采用一个非线性变换操作将输入特征X映射到一个交互空间中;为了动态地挖掘视觉语义单元的关联短语(或是短语的关联视觉语义单元),通过内积相似度来构造图的边关系:A=φ(X)φ(X)T⊙M';
其中A表示初始化的邻接矩阵,φ表示用于学习连接异构节点的边链接权重的非线性变换操作,M'∈{0,1}n×n是用于构造二分图的掩码矩阵,⊙是矩阵逐元素相乘操作。图卷积网络能由几层相同构造的网络叠加在一起构成;单个图卷积层可以定义为:
Figure BDA0003342079690000111
其中
Figure BDA0003342079690000112
是加入了环边的邻接矩阵,
Figure BDA0003342079690000113
是其对应的对角度矩阵,其元素
Figure BDA0003342079690000114
是每层的可学习权重矩阵,σ为一个非线性激活函数,
Figure BDA0003342079690000115
是每层输出的特征矩阵。
为了提取多层的图特征矩阵,堆叠多层图卷积网络,如表达式所示:
Figure BDA0003342079690000116
其中
Figure BDA0003342079690000117
是第l层图卷积网络的输出,
Figure BDA0003342079690000118
是第l层输出特征的维度,
Figure BDA0003342079690000119
参数矩阵将
Figure BDA00033420796900001110
的维度映射到
Figure BDA00033420796900001111
上。网络的最终输出是
Figure BDA00033420796900001112
其中图卷积网络的层数L定为2。最终用最后一层图卷积网络的输出
Figure BDA00033420796900001113
作为节点表征。
2)内积解码器用于重构邻接矩阵并且动态地挖掘视觉和文本语义单元之间有价值的链接;编码器生成的表征已经包含丰富的内容和结构信息,可采用简单的内积解码器,通过重构邻接矩阵来预测视觉和文本语义单元之间的链接权重;重构后的邻接矩阵
Figure BDA00033420796900001114
可表示为:
Figure BDA00033420796900001115
其中
Figure BDA00033420796900001116
是二分图重构后的邻接矩阵,M'∈{0,1}n×n是用于构造二分图的掩码矩阵,⊙是逐元素矩阵乘操作。
3)重构损失函数;为了有效地表示增强后的视频和文本特征ZL,需要保证重构后的邻接矩阵
Figure BDA0003342079690000121
与初始化的邻接矩阵A具有一致性;因此,采用交叉熵损失函数来测量自编码器的近似误差;这一方法通过测量
Figure BDA0003342079690000122
和A之间的差值来最小化重构损失,公式为:
Figure BDA0003342079690000123
综上所述,算法1概括了图自编码器的整个过程;最终采用更新后的邻接矩阵
Figure BDA0003342079690000124
来获得关系增强后的视频和文本特征表示
Figure BDA0003342079690000125
所述基于跨模态细粒度对齐模型的文本-视频检索的算法如下所示:
Figure BDA0003342079690000126
在本发明中,视频和文本特征的联合嵌入学习旨在对其特征进行相似度对比。
所述联合嵌入学习包括以下步骤:
通过跨模态对齐方法生成的对齐后的视频和文本特征表示
Figure BDA0003342079690000127
在其之上使用自注意力池化操作来得到最终的视频和文本嵌入表示,该操作由两个全连接层、一个tanh激活函数和在
Figure BDA0003342079690000131
上进行的softmax激活函数构成,从而获得池化后的视频和文本特征;生成后的视频特征
Figure BDA0003342079690000132
和文本特征
Figure BDA0003342079690000133
表示成如下:
Figure BDA0003342079690000134
其中K是视觉语义单元的数目,J是短语的数目,⊙是逐元素矩阵相乘操作;在此基础上,采用基于排序的三元损失函数来优化联合嵌入学习的性能;由于采用视频到文本的检索以及文本到视频的检索,因此损失函数的输入由两个三元组组成,即(T,O,O_)和(O,T,T_),三元组的第一个元素是一个视频(O)或一个文本查询(T),接下来的是一个正样例和一个来自不同模态的负样例,公式为:
Figure BDA0003342079690000135
Figure BDA0003342079690000136
其中
Figure BDA0003342079690000137
表示余弦相似度计算,δ为一个大于0小于1的实值;用于训练该模型的整体损失函数为基于排序的三元损失函数
Figure BDA0003342079690000138
与重构损失函数
Figure BDA0003342079690000139
之和,如以下公式:
Figure BDA00033420796900001310
Figure BDA00033420796900001311
其中λ是一个权衡参数。
在本发明的实际测试阶段,对于需要查询的视频和文本使用本发明的模型分别计算出它们在联合嵌入空间的特征向量;根据该特征向量可以检索出与它语义相近的另一种模态的对应特征。
1、实验设置
在三个基准数据集上进行了实验测试:MSR-VTT,YouCook2以及VATEX,用以评估本发明提出的模型性能。
MSR-VTT数据集包含10000个视频片段,每个视频片段和20个不同的描述文本匹配。在三种不同的分割方式上进行测试:1)Full test set的测试集包含2990个视频片段;2)1k-Miech test set的测试集包含1000个视频片段;3)1k-Yu test set的测试包含1000个视频片段。
YouCook2数据集包含2000个烹饪教学视频,并将其分割为14000个视频片段,每个视频片段有与之对应的描述文本,其中3350个视频片段用于测试。
VATEX数据集是一个多语种数据集,包含了25991个视频片段用于训练,3000个视频片段用于验证,6000个视频片段用于测试,每个视频片段有对应的10个英文描述文本和10个中文描述文本。
2、评价指标
实验采用了中位序数(Median Rank,MedR)以及topK召回率(Recall rate at topK,R@K)作为模型检索准确率的评价指标。中位序数衡量正样本在检索返回的样本中的排序的中位数,值越低代表模型的准确率越高。topK召回率衡量正样本在检索返回的样本中位于前K个样本内的比例,值越高代表模型的准确率越高。
3、实验结果
表1在MSR-VTT数据集上的检索结果比对
Figure BDA0003342079690000141
Figure BDA0003342079690000151
表2在YouCook2数据集上的检索结果比对
Figure BDA0003342079690000152
Figure BDA0003342079690000161
表3在VATEX数据及上的检索结果比对
Figure BDA0003342079690000162
从实验结果能看出,本发明的模型在三个数据集上都超过了大多方法的检索性能,这表明了本发明提出的模型对视频语义单元和句子短语之间进行细粒度的对齐和交互建模是有效的,从而实现更好的跨模态文本-视频检索性能。
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于细粒度跨模态对齐模型的文本-视频检索方法,其特征在于,所述文本-视频检索方法包括以下步骤:
(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;
(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;
(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征。
2.根据权利要求1所述的文本-视频检索方法,其特征在于,所述视频嵌入特征学习包括以下步骤:
1)首先是对视频的预处理,给定一个视频V,以预先指定的采样频率从视频V中进行均匀采样,得到一个视频帧序列,表示为{v1,v2,…,vN},其中下标N表示该序列中视频帧的长度;使用预先训练的I3D模型来提取视频的帧级特征表示,具体来说,将一个视频帧的前连续四帧和后连续四帧构成的视频子片段输入到I3D模型中,输出的最终特征作为当前视频帧的特征表示;最终将视频帧序列{v1,v2,…,vN}处理成视频片段特征表示,表示为
Figure FDA0003342079680000011
其中ft是第t帧的维度为dv的一维特征向量;
2)然后是视频特征向量的聚类,采用K-means算法将原始的视频帧进行聚类,其中K为视频中可能出现子动作/子事件的最大数目;具体为,使用Calinski-Harbasz评分来评估通过视频特征生成的簇,分值越高则代表聚类越好;按时序来分割每个视频特征
Figure FDA0003342079680000021
即将每个视频帧特征ft分配到簇
Figure FDA0003342079680000022
的其中一个;利用视频帧的时间戳对簇进行排序,得到排序后的簇,用于后续的解码;
3)为了进一步将簇的特征表达Ci转换为同一维度的向量用于跨模态的对齐;对每个簇特征表达采用平均池化操作,并将池化后的结果视为簇特征
Figure FDA0003342079680000023
接一个线性映射,具体表达式为:
Figure FDA0003342079680000024
Figure FDA0003342079680000025
其中
Figure FDA0003342079680000026
是视频每个簇的嵌入特征,
Figure FDA0003342079680000027
Figure FDA0003342079680000028
是可学习的变换矩阵,
Figure FDA00033420796800000215
是偏置项,最后视频片段的嵌入特征表示是所有语义单元表示的集合
Figure FDA0003342079680000029
3.根据权利要求1所述的文本-视频检索方法,其特征在于,所述文本嵌入特征学习包括以下步骤:给定一个包含M个词{w1,w2,…,wM}的查询文本Q,首先用现成的StanfordCoreNLP工具包,将查询文本Q拆解成一串短语
Figure FDA00033420796800000210
为了对每个短语sj中词之间的上下文关系进行建模,将这一连串的短语输入到一个预训练的BERT语言表征模型,取其最后一层的768维的隐藏态来表示整个短语的信息,记作
Figure FDA00033420796800000211
然后用一个门控模块来将短语表征
Figure FDA00033420796800000212
转换成嵌入特征
Figure FDA00033420796800000213
最终查询文本的嵌入特征表示是所有短语特征的集合
Figure FDA00033420796800000214
4.根据权利要求1所述的文本-视频检索方法,其特征在于,所述步骤三中具体包括以下步骤:
首先定义无向二分图为G={V,E,X},其中V={x1,n2,…,xn}表示所有视觉和文本语义单元的节点集合,E是节点间链接权重集合,可以用一个邻接矩阵A=[aij]∈Rn×n来表示,X是所有节点的特征矩阵,即
Figure FDA0003342079680000031
Figure FDA0003342079680000032
表示级联操作,n表示节点的数量,d*表示X的维度,在一般的链接预测问题中,图中链接的权重由输入数据决定;相比之下,图的权重是根据节点特征之间的语义相似度进行初始化的;用于更新节点的特征表达,并获取图G={V,E,X}的链接权重;图自编码器由一个两层的图卷积编码器和一个内积解码器构成;编码器能对齐视觉和文本语义单元,并获得关系增强后的视频和文本特征用于文本-视频检索。
5.根据权利要求4所述的文本-视频检索方法,其特征在于,所述图卷积编码器的具体运行方法如下:
图卷积网络以图为输入,对其进行计算,并返回每个对象节点更新后的特征作为输出;对于二分图G,采用一个非线性变换操作将输入特征X映射到一个交互空间中;通过内积相似度来构造图的边关系:A=φ(X)φ(X)T⊙M';图卷积网络由几层相同构造的网络叠加在一起构成,单个图卷积层以定义为:
Figure FDA0003342079680000033
Figure FDA0003342079680000034
堆叠多层图卷积网络的表达式为:
Figure FDA0003342079680000035
Figure FDA0003342079680000036
网络的最终输出是Z1:L=[Z1,…,ZL];最后一层图卷积网络的输出
Figure FDA0003342079680000037
作为节点表征。
6.根据权利要求5所述的文本-视频检索方法,其特征在于,所述内积解码器的具体运行方法如下:
内积解码器用于重构邻接矩阵并且动态地挖掘视觉和文本语义单元之间有价值的链接;编码器生成的表征已经包含丰富的内容和结构信息,可采用简单的内积解码器,通过重构邻接矩阵来预测视觉和文本语义单元之间的链接权重;重构后的邻接矩阵
Figure FDA0003342079680000041
可表示为:
Figure FDA0003342079680000042
Figure FDA0003342079680000043
7.根据权利要求6所述的文本-视频检索方法,其特征在于,还包括:重构损失函数,采用交叉熵损失函数来测量自编码器的近似误差;通过测量
Figure FDA0003342079680000044
和A之间的差值来最小化重构损失,公式为:
Figure FDA0003342079680000045
最终采用更新后的邻接矩阵
Figure FDA0003342079680000046
来获得关系增强后的视频和文本特征表示
Figure FDA0003342079680000047
8.根据权利要求7所述的文本-视频检索方法,其特征在于,所述联合嵌入学习包括以下步骤:
通过跨模态对齐方法生成的对齐后的视频和文本特征表示
Figure FDA0003342079680000048
在其之上使用自注意力池化操作来得到最终的视频和文本嵌入表示,该操作由两个全连接层、一个tanh激活函数和在
Figure FDA0003342079680000049
上进行的softmax激活函数构成,从而获得池化后的视频和文本特征;生成后的视频特征
Figure FDA00033420796800000410
和文本特征
Figure FDA00033420796800000411
表达式如下:
Figure FDA00033420796800000412
采用基于排序的三元损失函数来优化联合嵌入学习的性能;由于采用视频到文本的检索以及文本到视频的检索,因此损失函数的输入由两个三元组组成,即(T,O,O-)和(O,T,T-),三元组的第一个元素是一个视频(O)或一个文本查询(T),接下来的是一个正样例和一个来自不同模态的负样例,公式为:
Figure FDA0003342079680000051
Figure FDA0003342079680000052
用于训练该模型的整体损失函数为基于排序的三元损失函数
Figure FDA0003342079680000053
与重构损失函数
Figure FDA0003342079680000054
之和,如以下公式:
Figure FDA0003342079680000055
Figure FDA0003342079680000056
CN202111312220.4A 2021-11-08 2021-11-08 一种基于细粒度跨模态对齐模型的文本-视频检索方法 Pending CN114048350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111312220.4A CN114048350A (zh) 2021-11-08 2021-11-08 一种基于细粒度跨模态对齐模型的文本-视频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111312220.4A CN114048350A (zh) 2021-11-08 2021-11-08 一种基于细粒度跨模态对齐模型的文本-视频检索方法

Publications (1)

Publication Number Publication Date
CN114048350A true CN114048350A (zh) 2022-02-15

Family

ID=80207741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111312220.4A Pending CN114048350A (zh) 2021-11-08 2021-11-08 一种基于细粒度跨模态对齐模型的文本-视频检索方法

Country Status (1)

Country Link
CN (1) CN114048350A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357124A (zh) * 2022-03-18 2022-04-15 成都考拉悠然科技有限公司 一种基于语言重建和图机制的视频段落定位方法
CN114612826A (zh) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 视频和文本相似度确定方法、装置、电子设备、存储介质
CN114612748A (zh) * 2022-03-24 2022-06-10 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN114818737A (zh) * 2022-06-29 2022-07-29 北京邮电大学 科技论文数据文本语义特征提取方法、系统及存储介质
CN115577118A (zh) * 2022-09-30 2023-01-06 南京信息工程大学 一种基于混合分组排序和动态实体记忆规划的文本生成方法
CN116166843A (zh) * 2023-03-02 2023-05-26 北京中科闻歌科技股份有限公司 基于细粒度感知的文本视频跨模态检索方法和装置
CN117076712A (zh) * 2023-10-16 2023-11-17 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN117171382A (zh) * 2023-07-28 2023-12-05 宁波善德电子集团有限公司 一种基于综合特征和自然语言的车辆视频检索方法
CN117252274A (zh) * 2023-11-17 2023-12-19 北京理工大学 一种文本音频图像对比学习方法、装置和存储介质
WO2023246822A1 (zh) * 2022-06-22 2023-12-28 华为技术有限公司 一种图像处理方法和终端设备
CN117474817A (zh) * 2023-12-26 2024-01-30 江苏奥斯汀光电科技股份有限公司 对合成连续图像进行内容一致化的方法
CN114612748B (zh) * 2022-03-24 2024-06-07 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612826A (zh) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 视频和文本相似度确定方法、装置、电子设备、存储介质
CN114357124A (zh) * 2022-03-18 2022-04-15 成都考拉悠然科技有限公司 一种基于语言重建和图机制的视频段落定位方法
CN114612748A (zh) * 2022-03-24 2022-06-10 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN114612748B (zh) * 2022-03-24 2024-06-07 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
WO2023246822A1 (zh) * 2022-06-22 2023-12-28 华为技术有限公司 一种图像处理方法和终端设备
CN114818737B (zh) * 2022-06-29 2022-11-18 北京邮电大学 科技论文数据文本语义特征提取方法、系统及存储介质
CN114818737A (zh) * 2022-06-29 2022-07-29 北京邮电大学 科技论文数据文本语义特征提取方法、系统及存储介质
CN115577118B (zh) * 2022-09-30 2023-05-30 南京信息工程大学 一种基于混合分组排序和动态实体记忆规划的文本生成方法
CN115577118A (zh) * 2022-09-30 2023-01-06 南京信息工程大学 一种基于混合分组排序和动态实体记忆规划的文本生成方法
CN116166843B (zh) * 2023-03-02 2023-11-07 北京中科闻歌科技股份有限公司 基于细粒度感知的文本视频跨模态检索方法和装置
CN116166843A (zh) * 2023-03-02 2023-05-26 北京中科闻歌科技股份有限公司 基于细粒度感知的文本视频跨模态检索方法和装置
CN117171382B (zh) * 2023-07-28 2024-05-03 宁波善德电子集团有限公司 一种基于综合特征和自然语言的车辆视频检索方法
CN117171382A (zh) * 2023-07-28 2023-12-05 宁波善德电子集团有限公司 一种基于综合特征和自然语言的车辆视频检索方法
CN117076712A (zh) * 2023-10-16 2023-11-17 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN117076712B (zh) * 2023-10-16 2024-02-23 中国科学技术大学 视频检索方法、系统、设备及存储介质
CN117252274B (zh) * 2023-11-17 2024-01-30 北京理工大学 一种文本音频图像对比学习方法、装置和存储介质
CN117252274A (zh) * 2023-11-17 2023-12-19 北京理工大学 一种文本音频图像对比学习方法、装置和存储介质
CN117474817B (zh) * 2023-12-26 2024-03-15 江苏奥斯汀光电科技股份有限公司 对合成连续图像进行内容一致化的方法
CN117474817A (zh) * 2023-12-26 2024-01-30 江苏奥斯汀光电科技股份有限公司 对合成连续图像进行内容一致化的方法

Similar Documents

Publication Publication Date Title
CN114048350A (zh) 一种基于细粒度跨模态对齐模型的文本-视频检索方法
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN110390103B (zh) 基于双编码器的短文本自动摘要方法及系统
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN107346328B (zh) 一种基于多粒度层级网络的跨模态关联学习方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN111291188B (zh) 一种智能信息抽取方法及系统
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN115329127A (zh) 一种融合情感信息的多模态短视频标签推荐方法
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN115879473B (zh) 基于改进图注意力网络的中文医疗命名实体识别方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113032552A (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN117036833B (zh) 一种视频分类方法、装置、设备和计算机可读存储介质
CN113626584A (zh) 一种自动文本摘要生成方法、系统、计算机设备和存储介质
CN116775855A (zh) 基于Bi-LSTM的TextRank中文摘要自动生成方法
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN112883229B (zh) 基于多特征图注意网络模型的视频-文本跨模态检索方法和装置
CN112329933B (zh) 数据处理方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination