CN113239159A - 基于关系推理网络的视频和文本的跨模态检索方法 - Google Patents

基于关系推理网络的视频和文本的跨模态检索方法 Download PDF

Info

Publication number
CN113239159A
CN113239159A CN202110451431.XA CN202110451431A CN113239159A CN 113239159 A CN113239159 A CN 113239159A CN 202110451431 A CN202110451431 A CN 202110451431A CN 113239159 A CN113239159 A CN 113239159A
Authority
CN
China
Prior art keywords
video
feature
text
network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110451431.XA
Other languages
English (en)
Other versions
CN113239159B (zh
Inventor
沈复民
徐行
王妮
邵杰
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Koala Youran Technology Co ltd
Original Assignee
Chengdu Koala Youran Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Koala Youran Technology Co ltd filed Critical Chengdu Koala Youran Technology Co ltd
Priority to CN202110451431.XA priority Critical patent/CN113239159B/zh
Publication of CN113239159A publication Critical patent/CN113239159A/zh
Application granted granted Critical
Publication of CN113239159B publication Critical patent/CN113239159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及跨模态检索领域,公开了一种基于关系推理网络的视频和文本的跨模态检索方法,包括:提取视频数据特征和文本数据特征;运用循环神经网络获取视频全局特征和文本全局特征;运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征;分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征;映射视频融合特征和文本融合特征到公共空间,并对齐公共空间中的视频融合特征分布和文本融合特征分布;对整体网络进行训练。本发明同时关注全局特征和局部关系特征,能更有效的聚焦到单模态数据中的重点信息,进而实现跨模态检索。

Description

基于关系推理网络的视频和文本的跨模态检索方法
技术领域
本发明涉及跨模态检索领域,具体涉及一种基于关系推理网络的视频和文本的跨模态检索方法。
背景技术
跨媒体检索是指用户通过输入任意媒体类型的查询数据,检索出所有媒体类型中的语义相关数据。在本发明中,具体为视频和文本的相互检索。一般情况下,数据集中将提供视频和相应的视频描述文本,跨媒体检索的任务为:对任意一个视频,检索出与其内容描述最相关的视频描述文本,或对任意一个视频描述文本,检索出与其描述最相关的视频。随着互联网中文本、图像、视频等多媒体数据的日益增多,跨越不同模态的检索成为信息检索的新趋势。对于这个问题的难点在于如何获得更有效的模态特征,来全面且有侧重点的表示视频或文字的信息。现在主流方法主要有两类:跨模态检索的传统方法、深度学习方法。
1)跨模态检索的传统方法:传统方法主要通过统计分析的方式学习映射矩阵,通过分析不同模态数据特征之间的关联关系,学习一个能够最大化成对相关性的共同空间,将不同模态的特征映射到这个共同空间得到相同维度的向量表示,实现跨模态的统一表征。
2)跨模态检索的深度学习方法:这些方法旨在利用深度神经网络对非线性关系的抽象能力,促进跨模态关联分析和统一表征学习。现有方法一般通过构建多路网络结构建模不同媒体类型数据之间的关联关系,有效提升对复杂跨模态关联的分析能力,以提高跨模态统一表征的检索准确率。
对于视频文本检索任务而言,在对视频进行建模时,时序推理是一个至关重要但困难的部分。对于一个视频而言,尽管现有的卷积神经网络可以提取出很多空域信息,但当涉及到空间转换、背景变换或者时序动作等信息时,卷积神经网络就表现得差强人意,它无法很好的提取到时域上的信息。
另一个现有方法的不足就是,大多数现有方法只关注于模态间的关系和信息,而忽略了单个模态内部信息的关系,如视频中帧与帧之间的关系,文本中词与词之间的关系,从而使得单模态信息表达不够完整和充分。
发明内容
本发明的目的是提供一种基于关系推理网络的视频和文本的跨模态检索方法,达到更好地跨模态检索效果。
本发明解决其技术问题,采用的技术方案是:
基于关系推理网络的视频和文本的跨模态检索方法,包括如下步骤:
步骤1.提取视频数据特征和文本数据特征;
步骤2.运用循环神经网络获取视频全局特征和文本全局特征;
步骤3.运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征;
步骤4.分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征;
步骤5.映射视频融合特征和文本融合特征到公共空间,并对齐公共空间中的视频融合特征分布和文本融合特征分布;
步骤6.对步骤1-5的整体网络进行训练;
步骤7.利用训练好的整体网络对视频和文本进行跨模态检索。
进一步的是,步骤1具体是指:
对于视频数据,运用卷积神经网络ResNet进行特征提取,提取出的视频特征序列;
对于文本数据,运用Glove模型进行特征提取,提取出的文本特征序列表示。
进一步的是,步骤2具体是指:
对于提取出的视频数据特征,利用单向循环神经网络获取视频全局特征;
对于提取出的文本数据特征,利用双向循环神经网络获取文本全局特征。
进一步的是,所述单向循环神经网络采用单向的长短期记忆网络Bi-LSTM,利用单向的长短期记忆网络Bi-LSTM对提取出的视频数据特征进行编码,获取视频全局特征;
所述双向循环神经网络采用双向的长短期记忆网络Bi-LSTM,利用双向的长短期记忆网络Bi-LSTM对提取出的文本数据特征进行编码,获取文本全局特征。
进一步的是,步骤3具体包括如下步骤:
步骤301.对于一个给定模态数据特征,进行多规模选取,获得不同尺度规模的数据特征集,所述给定模态包括视频和文本;
步骤302.对每一个尺度规模的数据特征集,运用全部-局部注意力机制,利用该模态的全局特征来对一个尺度规模的数据特征集内的特征进行计算,获得不同特征的权重参数;
步骤303.对每一个尺度规模的数据特征集,将特征集内的每一个特征与其对应的权重参数进行加权求和,从而获得该尺度规模的多尺度局部关系特征。
进一步的是,步骤4具体包括如下步骤:
步骤401.对于一个给定模态数据的多尺度局部关系特征,对每个尺度的局部关系特征,将其与给定模态数据的全局特征进行连接操作,获得该尺度下的全局-局部关系特征;
步骤402.对多尺度的全局-局部关系特征,利用融合函数,将多个尺度的全局-局部关系特征融合成最终的模态融合特征。
进一步的是,步骤5具体为:
将视频融合特征和文本融合特征映射到512维的公共空间中;
利用分布对齐损失函数对齐视频融合特征分布和文本融合特征分布;
进一步的是,步骤6具体为:
采用tripletrankingloss作为损失函数对步骤1-5的整体网络进行训练。
进一步的是,步骤7具体包括如下步骤:
步骤701.对一个给定模态的数据,提取其特征向量;
步骤702.将提取的特征向量输入训练好的整体网络,并映射到公共空间;
步骤703.计算公共空间中所述给定模态以外的模态的数据变量与该给定模态的数据变量的相似性,并对计算结果进行排序,相似性最大的变量对应的原始模态数据为检索结果。
本发明的有益效果是,通过上述基于关系推理网络的视频和文本的跨模态检索方法,通过对单模态数据内部关系的推理,从而获得该模态数据更全面且有侧重点的特征表示,且通过在公共空间里的分布对齐来保证模态数据分布的完整和相似,从而获得更好的跨模态检索效果。
附图说明
图1为本发明实施例1中基于关系推理网络的视频和文本的跨模态检索方法的流程图;
图2为本发明实施例2中整体神经网络连接框架图;
图3为本发明实施例2中多尺度关系推理网络的示意图;
图4为本发明实施例3中的融合过程的示意图。
具体实施方式
下面结合附图及实施例,详细描述本发明的技术方案。
实施例1
本实施例提出一种基于关系推理网络的视频和文本的跨模态检索方法,其流程图见图1,其中,该方法包括如下步骤:
步骤1.提取视频数据特征和文本数据特征。
步骤2.运用循环神经网络获取视频全局特征和文本全局特征。
步骤3.运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征。
步骤4.分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征。
步骤5.映射视频融合特征和文本融合特征到公共空间,并对齐公共空间中的视频融合特征分布和文本融合特征分布。
步骤6.对步骤1-5的整体网络进行训练。
步骤7.利用训练好的整体网络对视频和文本进行跨模态检索。
实施例2
参见图2和图3,本实施例中提出的基于关系推理网络的视频和文本的跨模态检索方法可以依据视频帧之间的依赖关系,通过关系推理网络,在多个时间尺度提取不同帧之间的依赖关系,构建多个帧之间的隐式关系,获得局部关系特征,同时构建全局特征,并融合多尺度局部关系特征和全局特征,成一个强语义的语义特征,作为视频的融合特征。
另外,依据文本词间的依赖关系,通过关系推理网络,在多个尺度上提取不同词之间的依赖关系,构建多个词之间的隐式关系,获得局部关系特征,同时构建全局特征,并融合多尺度局部关系特征和全局特征,成一个强语义的语义特征,作为文本的融合特征。
接下来,将视频融合特征和文本融合特征映射到公共空间,利用分布对齐损失函数和triplerankingloss函数训练整个网络,然后进行视频文本检索。
这里,通过设计的关系推理网络,更好的捕捉到单模态内部的关系,丰富了单模态特征的表示方式,提高了网络对单模态数据的表征能力,尤其是对视频而言,该网络相比于现存方法,可以更好地捕捉到视频中的时序关系,实现对场景变换、动作等对时序要求较高的检索对象的有效检索。
此外,不同模态的数据具有不同特征表示,存在“异构鸿沟”,难以直接度量相似性,而且在使用triplerankingloss是容易扰乱现有分布,通过引入分布对齐函数可以有效的解决上述两个问题。
实施例3
参见图4,本实施例中提出的基于关系推理网络的视频和文本的跨模态检索方法,先构建训练用的模型,然后对整个网络进行训练,再进行跨模态检索,主要包括步骤S1-步骤S6。
步骤S1:提取多模态数据特征。
多模态的数据包含视频、文本等,这些原始数据以人类接受的方式表示,但是计算机并不能直接处理,需要将他们的特征提取出来,以计算机能够处理的数字表示。
其中,步骤S1具体包括以下步骤:
步骤S11:对于视频,运用卷积神经网络ResNet进行特征提取,视频特征序列表示为
Figure 164525DEST_PATH_IMAGE002
,其中n为帧序列的个数;
步骤S12:对于文本,运用Glove进行特征提取,文本特征序列表示为
Figure 90893DEST_PATH_IMAGE004
,其中m为文本序列的长度。
步骤S2:运用循环神经网络获取视频全局特征和文本全局特征。
本实施例中,运用双向的长短期记忆网络(Bi-LSTM)对文本特征进行编码,双向长短期记忆网络可以有效的利用给定信息的上下文,结合上下文获取整个文本的全局特征,记为
Figure 436424DEST_PATH_IMAGE006
;由于视频具有严格的时序性,所以我们采用单向的长短期记忆网络,对视频特征进行编码,获取视频全局特征,记为
Figure 55624DEST_PATH_IMAGE008
步骤S3:运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征。
以下以视频为例进行描述,文本操作类同视频,步骤S3具体包括以下步骤:
步骤S31:对视频帧特征进行多规模选取,获得不同尺度规模的数据特征子集,如视频数据特征,可获得2帧视频特征子集,3帧视频特征子集,……,t帧视频特征子集。我们定义规模为t的特征子集为
Figure 181712DEST_PATH_IMAGE010
,其中,
Figure 567563DEST_PATH_IMAGE012
。为了保证视频的时序性,我们保持
Figure 298758DEST_PATH_IMAGE014
步骤S32:对每一个尺度规模的视频特征子集,运用全部-局部注意力机制 (Global-to-localattention),利用视频全局特征
Figure 823280DEST_PATH_IMAGE016
来对一个尺度规模的视频特征子集 内的特征进行计算,获得不同特征的权重参数,以
Figure 108768DEST_PATH_IMAGE018
为例,计算权重参数矩阵
Figure DEST_PATH_IMAGE019
如下:
Figure DEST_PATH_IMAGE021
其中,[.,.]表示向量的连接操作,
Figure 970414DEST_PATH_IMAGE022
表示tanh函数,
Figure DEST_PATH_IMAGE023
Figure 759378DEST_PATH_IMAGE024
是需要学习的参数,
Figure 720381DEST_PATH_IMAGE026
,再对权重参数矩阵
Figure 493165DEST_PATH_IMAGE028
用softmax函数进行归一化操作。
步骤S33:对每一个尺度规模的视频特征子集,将特征子集内的每一个特征与其对应的权重参数进行加权求和,从而获得该尺度规模的多尺度局部关系特征。同样以规模为t的特征子集为例,具体实现如下:
Figure 565026DEST_PATH_IMAGE030
其中,
Figure 745515DEST_PATH_IMAGE032
即为规模为t的局部关系特征,最终得到的视频的局部关系特征为:
Figure 611840DEST_PATH_IMAGE034
步骤S4:分别融合单模态数据的全局特征和局部关系特征获得视频融合特征。
以下以视频为例进行描述,文本操作类同视频,步骤S4具体包括:
步骤S41:对于视频的多尺度局部关系特征
Figure 871920DEST_PATH_IMAGE036
,对每个尺度的局部关系特征,将其与给定模态数据的全局特征进行连接操作,获得该尺度下的全局-局部关系特征,以规模为t的局部关系特征
Figure 685155DEST_PATH_IMAGE038
为例,操作如下:
Figure 714291DEST_PATH_IMAGE040
其中,
Figure DEST_PATH_IMAGE041
表示一个全连接函数,
Figure DEST_PATH_IMAGE043
是激活函数。
步骤S42:对多尺度的全局-局部关系特征,利用融合函数,将多个尺度的全局-局部关系特征融合成最终的模态融合特征,具体操作如下
Figure DEST_PATH_IMAGE045
步骤S5:映射视频融合特征和文本融合特征到公共空间,利用分布对齐损失和tripletranking损失来训练该网络。
所述步骤S5具体包括:
步骤S51:将视频融合特征和文本融合特征映射到512维的公共空间中;
我们用
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE049
表示最终的视频特征和文本特征,
Figure DEST_PATH_IMAGE051
表示处理的批次数据(mini-batch)的大小。
步骤S52:利用分布对齐损失函数来对齐视频融合特征分布和文本融合特征分布;
我们用KL散度来衡量两个分布的相似性,分布对齐损失函数具体实现如下:
Figure DEST_PATH_IMAGE053
其中,
Figure DEST_PATH_IMAGE055
表示L2归一化,
Figure DEST_PATH_IMAGE057
表示
Figure DEST_PATH_IMAGE059
代表的视频,与其他文本特征的相似性。
Figure DEST_PATH_IMAGE061
其中,
Figure DEST_PATH_IMAGE063
表示视频i和文本j是匹配的,为0则不匹配。通过KL散度计算公式我们获得利用视频检索文本的分布对齐损失函数
Figure DEST_PATH_IMAGE065
,具体表示如下:
Figure DEST_PATH_IMAGE067
同理可以获得文本检索视频的分布对齐损失函数
Figure DEST_PATH_IMAGE069
。最终的分布对齐损失函数
Figure DEST_PATH_IMAGE071
如下:
Figure DEST_PATH_IMAGE073
步骤S53:采用tripletrankingloss作为损失函数对整个网络进行训练。
步骤S6:跨模态检索数据。
步骤S61:对一个给定模态的数据,如一段文本或者一段视频,提取其特征向量;
步骤S62:将提取的特征向量输入训练好的网络,映射到公共空间;
步骤S63:计算公共空间空间中其他模态数据变量与此检索目标变量的相似性,进行排序,相似性最大的变量对应的原始模态数据为检索结果。
实施例4
本实施例在实施例2或实施例3的基础上,进一步优化,采用top-k指标来评估我们的模型,top-k指模型返回的分类特征分数中前k个结果中有正确标签的视频序列或文本序列所占的比例,是最常用的分类评估方法,在本实例中中具体表示为R@k,其中k分别为1,5和10。表1表2中,MedR表示正确标签在实验结果中的中位数,rsum表示所有R@k的求和结果。
在大规模视频文本检索数据集TGIF和MSVD数据集上测试本发明。TGIF数据集包含100,000个视频动画和120,000条描述文本,选取89,504个视频样本和对应的描述文本作为训练集,11,351个视频样本和对应的描述文本作为测试集。测试比较结果如下表1所示:
表1
Figure DEST_PATH_IMAGE075
MSVD数据集包含1,970个Youtube视频,每条视频包含5个描述文本。我们选取1,300个视频样本作为训练集,670个视频样本作为测试集。测试比较结果如下表2所示:
表2
Figure DEST_PATH_IMAGE077
从表1、表2可以看出,本发明在所有的测试集上均优于现有的方法。
并且,本发明在视频-文本检索场景中获得了最高的检索准确率,在TGIF数据集上,我们相较于之前的最好方法,在rsum上提升了67.7%,在MSVD数据集上的top-1准确率相较于之前的最好方法提高了24.2%。在所有度量方式上均优于现有方法提高了视频行为分类的识别准确度。

Claims (9)

1.基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,包括如下步骤:
步骤1.提取视频数据特征和文本数据特征;
步骤2.运用循环神经网络获取视频全局特征和文本全局特征;
步骤3.运用多尺度关系推理网络构建视频局部关系特征和文本局部关系特征;
步骤4.分别融合单模态数据的全局特征和局部关系特征获得视频融合特征和文本融合特征;
步骤5.映射视频融合特征和文本融合特征到公共空间,并对齐公共空间中的视频融合特征分布和文本融合特征分布;
步骤6.对步骤1-5的整体网络进行训练;
步骤7.利用训练好的整体网络对视频和文本进行跨模态检索。
2.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤1具体是指:
对于视频数据,运用卷积神经网络ResNet进行特征提取,提取出的视频特征序列;
对于文本数据,运用Glove模型进行特征提取,提取出的文本特征序列表示。
3.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤2具体是指:
对于提取出的视频数据特征,利用单向循环神经网络获取视频全局特征;
对于提取出的文本数据特征,利用双向循环神经网络获取文本全局特征。
4.根据权利要求3所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,
所述单向循环神经网络采用单向的长短期记忆网络Bi-LSTM,利用单向的长短期记忆网络Bi-LSTM对提取出的视频数据特征进行编码,获取视频全局特征;
所述双向循环神经网络采用双向的长短期记忆网络Bi-LSTM,利用双向的长短期记忆网络Bi-LSTM对提取出的文本数据特征进行编码,获取文本全局特征。
5.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤3具体包括如下步骤:
步骤301.对于一个给定模态数据特征,进行多规模选取,获得不同尺度规模的数据特征集,所述给定模态包括视频和文本;
步骤302.对每一个尺度规模的数据特征集,运用全部-局部注意力机制,利用该模态的全局特征来对一个尺度规模的数据特征集内的特征进行计算,获得不同特征的权重参数;
步骤 303.对每一个尺度规模的数据特征集,将特征集内的每一个特征与其对应的权重参数进行加权求和,从而获得该尺度规模的多尺度局部关系特征。
6.根据权利要求5所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤4具体包括如下步骤:
步骤401.对于一个给定模态数据的多尺度局部关系特征,对每个尺度的局部关系特征,将其与给定模态数据的全局特征进行连接操作,获得该尺度下的全局-局部关系特征;
步骤402.对多尺度的全局-局部关系特征,利用融合函数,将多个尺度的全局-局部关系特征融合成最终的模态融合特征。
7.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤5具体为:
将视频融合特征和文本融合特征映射到512维的公共空间中;
利用分布对齐损失函数对齐视频融合特征分布和文本融合特征分布。
8.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤6具体为:
采用triplet ranking loss作为损失函数对步骤1-5的整体网络进行训练。
9.根据权利要求1所述的基于关系推理网络的视频和文本的跨模态检索方法,其特征在于,步骤7具体包括如下步骤:
步骤701.对一个给定模态的数据,提取其特征向量;
步骤702.将提取的特征向量输入训练好的整体网络,并映射到公共空间;
步骤703.计算公共空间中所述给定模态以外的模态的数据变量与该给定模态的数据变量的相似性,并对计算结果进行排序,相似性最大的变量对应的原始模态数据为检索结果。
CN202110451431.XA 2021-04-26 2021-04-26 基于关系推理网络的视频和文本的跨模态检索方法 Active CN113239159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110451431.XA CN113239159B (zh) 2021-04-26 2021-04-26 基于关系推理网络的视频和文本的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110451431.XA CN113239159B (zh) 2021-04-26 2021-04-26 基于关系推理网络的视频和文本的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN113239159A true CN113239159A (zh) 2021-08-10
CN113239159B CN113239159B (zh) 2023-06-20

Family

ID=77129160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110451431.XA Active CN113239159B (zh) 2021-04-26 2021-04-26 基于关系推理网络的视频和文本的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN113239159B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806482A (zh) * 2021-09-17 2021-12-17 中国电信集团系统集成有限责任公司 视频文本跨模态检索方法、装置、存储介质和设备
CN114612759A (zh) * 2022-03-22 2022-06-10 北京百度网讯科技有限公司 视频处理方法、查询视频的方法和模型训练方法、装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110085734A1 (en) * 2009-08-10 2011-04-14 Pixel Forensics, Inc. Robust video retrieval utilizing video data
CN106649440A (zh) * 2016-09-13 2017-05-10 西安理工大学 融合全局r特征的近似重复视频检索方法
CN110059217A (zh) * 2019-04-29 2019-07-26 广西师范大学 一种两级网络的图像文本跨媒体检索方法
CN110097000A (zh) * 2019-04-29 2019-08-06 东南大学 基于局部特征聚合描述符和时序关系网络的视频行为识别方法
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110085734A1 (en) * 2009-08-10 2011-04-14 Pixel Forensics, Inc. Robust video retrieval utilizing video data
CN106649440A (zh) * 2016-09-13 2017-05-10 西安理工大学 融合全局r特征的近似重复视频检索方法
CN110059217A (zh) * 2019-04-29 2019-07-26 广西师范大学 一种两级网络的图像文本跨媒体检索方法
CN110097000A (zh) * 2019-04-29 2019-08-06 东南大学 基于局部特征聚合描述符和时序关系网络的视频行为识别方法
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN112241468A (zh) * 2020-07-23 2021-01-19 哈尔滨工业大学(深圳) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
CN112559835A (zh) * 2021-02-23 2021-03-26 中国科学院自动化研究所 多模态情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHIZHE CHEN 等: "Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning", 《2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
李志欣 等: "融合两级相似度的跨媒体图像文本检索", 《电子学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806482A (zh) * 2021-09-17 2021-12-17 中国电信集团系统集成有限责任公司 视频文本跨模态检索方法、装置、存储介质和设备
CN113806482B (zh) * 2021-09-17 2023-12-12 中电信数智科技有限公司 视频文本跨模态检索方法、装置、存储介质和设备
CN114612759A (zh) * 2022-03-22 2022-06-10 北京百度网讯科技有限公司 视频处理方法、查询视频的方法和模型训练方法、装置

Also Published As

Publication number Publication date
CN113239159B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN112214685B (zh) 一种基于知识图谱的个性化推荐方法
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
WO2021031480A1 (zh) 文本生成方法和装置
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN111581405A (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN115329127A (zh) 一种融合情感信息的多模态短视频标签推荐方法
Liu et al. Social embedding image distance learning
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
Wang et al. Long video question answering: A matching-guided attention model
CN112966091A (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN113806630A (zh) 基于注意力的多视角特征融合跨域推荐方法及装置
Cao et al. Deep multi-view learning to rank
CN110717090A (zh) 一种旅游景点网络口碑评价方法、系统及电子设备
CN110659392B (zh) 检索方法及装置、存储介质
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN113535949B (zh) 基于图片和句子的多模态联合事件检测方法
Long et al. Bi-calibration networks for weakly-supervised video representation learning
CN111680190B (zh) 一种融合视觉语义信息的视频缩略图推荐方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN111651660A (zh) 一种跨媒体检索困难样本的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant