CN115617945A - 跨模态数据检索模型的建立方法以及跨模态数据检索方法 - Google Patents
跨模态数据检索模型的建立方法以及跨模态数据检索方法 Download PDFInfo
- Publication number
- CN115617945A CN115617945A CN202211247622.5A CN202211247622A CN115617945A CN 115617945 A CN115617945 A CN 115617945A CN 202211247622 A CN202211247622 A CN 202211247622A CN 115617945 A CN115617945 A CN 115617945A
- Authority
- CN
- China
- Prior art keywords
- data
- modal data
- modal
- cross
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种跨模态数据检索模型的建立方法以及跨模态数据检索方法。该方法包括:基于多个特征提取子网络以及共享子网络,建立跨模态数据检索模型;获取多模态数据的训练集数据,多模态数据包括多种模态数据;根据多模态数据所包含的模态种类,分别将训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征;将特异特征输入参数共享子网络,以输出多模态数据之间的共享空间特征;利用损失函数调整共享空间特征,以完成跨模态数据检索模型的训练。本申请实施例通过设置多个特征提取子网络以及共享子网络的方式,从而能够有效对多模态数据去除冗余信息,以提升跨模态数据检索的精度。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种跨模态数据检索模型的建立方法以及跨模态数据检索方法。
背景技术
由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战。
然而跨模态检索面临的挑战是如何度量不同模态数据之间内容的相似性。现存的方法主要通过使用交叉熵损失函数和三元组损失函数结合的方式,将不同模态数据投射到同一特征空间,然后进行相似度度量。但是两种模态的特征可能会存在冗余信息,导致相似度度量不够准确,从而影响跨模态数据检索的精度。
发明内容
本申请实施例提供一种跨模态数据检索模型的建立方法以及跨模态数据检索方法,以解决现有技术中跨模态数据检索精度低的问题。
为达到上述目的,第一方面,本申请实施例提供了一种跨模态数据检索模型的建立方法,该方法包括:
基于多个特征提取子网络以及共享子网络,建立跨模态数据检索模型;
获取多模态数据的训练集数据,所述多模态数据包括多种模态数据;
根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征;
将所述特异特征输入参数共享子网络,以输出多模态数据之间的共享空间特征;
利用损失函数调整所述共享空间特征,以完成所述跨模态数据检索模型的训练,所述跨模态数据检索模型用以输出所输入的多模态数据对应的共享空间特征。
可选地,所述多模态数据包括第一模态数据以及第二模态数据;
所述根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征,包括:
将所述第一模态数据的训练集数据输入对应的特征提取子网络,以输出所述第一模态数据对应的特异特征;
将所述第二模态数据的训练集数据输入对应的特征提取子网络,以输出所述第二模态数据对应的特异特征。
可选地,还包括:将调整后的所述特异特征以及所述共享空间特征作为检索库特征,并存储至检索库。
可选地,利用损失函数调整所述共享空间特征,以完成所述跨模态数据检索模型的训练,包括:
利用联合语义稀疏损失函数、交叉熵损失函数以及跨模态三元组损失函数,迭代更新所述特异特征所对应的权重值、所述共享空间特征所对应的权重值,直至各损失函数收敛,以完成所述跨模态数据检索模型的训练。
可选地,在所述根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征之前,还包括:
对所述训练集数据进行归一化处理。
可选地,所述训练集数据包括三元组。
第二方面,本申请实施例提供了一种跨模态数据检索方法,该方法包括:
获取第一模态数据;
将所述第一模态数据输入所述跨模态数据检索模型,以获取所述跨模态数据检索模型输出的所述第一模态数据对应的共享空间特征;
计算所述共享空间特征以及预先存储的检索库特征之间的相似度,确定所述第一模态数据对应的检索数据。
可选地,所述计算所述共享空间特征以及预先存储的检索库特征之间的相似度,确定所述第一模态数据对应的检索数据,包括:
计算所述共享空间特征以及预先存储的检索库特征之间的相似度,并从检索库中检索出所述第一模态数据对应的检索数据。
可选地,所述计算所述共享空间特征以及所述检索库特征之间的距离,包括:
计算所述共享空间特征和所述检索库特征之间的欧几里得距离,以确定所述共享空间特征以及所述检索库特征之间的相似度。
可选地,所述计算所述共享空间特征以及所述检索库特征之间的相似度,确定所述第一模态数据对应的检索数据,包括:
将检索结果按照相似度大小进行排序,并将前n个检索结果作为所述第一模态数据对应的检索数据。
第三方面,本申请实施例提供了一种充电平均电流计算跨模态数据检索模型的建立装置,包括:
建立模块,用于基于多个特征提取子网络以及共享子网络,建立跨模态数据检索模型;
第一获取模块,用于获取多模态数据的训练集数据,所述多模态数据包括多种模态数据;
第一处理模块,用于根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征;将所述特异特征输入参数共享子网络,以输出多模态数据之间的共享空间特征;
训练模块,用于利用损失函数调整所述共享空间特征,以完成所述跨模态数据检索模型的训练,所述跨模态数据检索模型用以输出所输入的多模态数据对应的共享空间特征。
第四方面,本申请实施例提供了一种跨模态数据检索装置,包括:
第二获取模块,用于获取第一模态数据;
第二处理模块,用于将所述第一模态数据输入所述跨模态数据检索模型,以获取所述跨模态数据检索模型输出的所述第一模态数据对应的共享空间特征;
确定模块,用于计算所述共享空间特征以及预先存储的检索库特征之间的相似度,确定所述第一模态数据对应的检索数据。
第五方面,本申请实施例提供了一种计算设备,包括存储组件及处理组件;所述存储组件存储一条或多条计算机程序指令,所述计算机程序指令供所述处理组件调用执行,所述处理组件执行所述一条或多条计算机程序指令以实现如上述第一方面所述的跨模态数据检索模型的建立方法。
第六方面,本申请实施例提供了一种计算设备,包括存储组件及处理组件;所述存储组件存储一条或多条计算机程序指令,所述计算机程序指令供所述处理组件调用执行,所述处理组件执行所述一条或多条计算机程序指令以实现如上述第二方面所述的跨模态数据检索方法。
第七方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时实现如上述第一方面所述的跨模态数据检索模型的建立方法,或上述第二方面所述的跨模态数据检索方法
本申请实施例提供的一种跨模态数据检索模型的建立方法以及跨模态数据检索方法,通过基于多个特征提取子网络以及共享子网络,建立跨模态数据检索模型;获取多模态数据的训练集数据,所述多模态数据包括多种模态数据;根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征;将所述特异特征输入参数共享子网络,以输出多模态数据之间的共享空间特征;利用损失函数调整所述共享空间特征,以完成所述跨模态数据检索模型的训练,所述跨模态数据检索模型用以输出所输入的多模态数据对应的共享空间特征。本申请实施例中,通过设置多个特征子网络,能够有效提取不同模态数据的特异特征,通过设置共享子网络,能够将不同模态数据的特异特征映射到公共空间,进行有效的特征度量,以确定共享空间特征,从而能够有效对多模态数据去除冗余信息,以提升跨模态数据检索的精度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请提供的跨模态数据检索模型的建立方法一个实施例的流程图;
图2为本申请提供的跨模态数据检索方法一个实施例的流程图;
图3为本申请提供的跨模态数据检索模型的建立装置一个实施例的结构示意图;
图4为本申请提供的跨模态数据检索装置一个实施例的结构示意图;
图5为本申请提供的一种计算设备实施例的结构示意图;
图6为本申请提供的另一种计算设备实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图1为本申请提供的跨模态数据检索模型的建立方法一个实施例的流程图。如图1所示,该跨模态数据检索模型的建立方法可以包括如下步骤:
101、基于多个特征提取子网络以及共享子网络,建立跨模态数据检索模型;
在该步骤中,特征提取子网络用于提取模态数据对应的特异特征。共享子网络用于多模态数据之间的共享空间特征。
本申请实施例中,本申请的跨模态数据检索模型包括多个特征提取子网络,通过设置多个特征提取子网络的目的在于使得每种模态数据具有其对应的特征提取子网络,以提取每种模态数据对应的特异特征。进一步,再通过共享子网络提取多模态数据之间的共享空间特征。
作为一种可能实现的方案,以跨模态数据检索模型为ResNet50模型,特征提取子网络包括特征提取子网络1和特征提取子网络2为例,特征提取子网络1和特征提取子网络2是ResNet50第一个残差块,共享子网络是ResNet50的后四个残差块。
此外,Resnet50模型包含五个阶段,为了表述方便,将这五个阶段命名为conv1,conv2_x,conv3_x,conv4_x,conv5_x。提取多通道数据特异特征网络:多通道训练数据->conv1->conv2_x->多通道特异特征;提取单通道数据特异特征网络:单通道训练数据->conv1->conv2_x->单通道特异特征。
下面具体介绍Resnet50模型的组成部分:
conv1由一个7×7的卷积核和一个3×3的最大池化层组成。
conv2_x,conv3_x,conv4_x,conv5_x分别由3,4,6,3个bottleneck组成。每一个bottleneck包含三个卷积核,大小分别是1×1,3×3,1×1。
每一个bottleneck具体为:第一层卷积->BN层->ReLU激活函数->第二层卷积->BN层->ReLU激活函数->第三层卷积->BN层->ReLU激活函数。
当输入bottleneck和输出bottleneck的数据维度是相同的时候,输入bottleneck数据可以和输出bottleneck数据直接相加;如果维度不同,增加一个conv2d layer使得输入bottleneck数据和输出bottleneck数据直接相加。
两个模态数据分别通过特征提取子网络1和特征提取子网络2(conv1和conv2_x),特征提取子网络1和特征提取子网络2的输出特征通过共享子网络(conv3_x,conv4_x,conv5_x)。
需要说明的是,现存技术中,跨模态数据检索模型仅设置单个特征提取网络的方案,从而导致了不同模态数据共享了提取特征网络的所有参数,使得不同模态的数据分布在同一个特征空间,从而导致多种模态数据的共享空间特征可能会存在冗余信息,导致相似度度量不够准确,从而影响跨模态数据检索的精度。而本申请实施例中的跨模态数据检索模型使用参数不共享的多个特征提取子网络,以分别提取每个模态数据中的中低级语义信息。这是由于不同模态数据之间的中低级语义信息是不同的,在高级语义上才是靠近的,因此通过使用参数不共享的多个特征提取子网络和特征提取子网络能够更好的衡量高级语义信息。这是由于不同模态数据的低级语义信息存在很大差异,所以需要使用参数不共享的特征提取子网络来提取,而不同模态数据的高级语义信息是相似的,可由共享子网络提取,因此不同模态数据经过共享子网络,得到的共享空间特征能够更好的进行相似度度量。
102、获取多模态数据的训练集数据,所述多模态数据包括多种模态数据;
在该步骤中,多模态数据的训练集数据可理解为包含多种模态数据的样本数据,用以训练跨模态数据检索模型,以便训练后的跨模态数据检索模型能够根据当前所要检索的模态数据,输出其对应的检索数据。其中,训练集数据的表现形式可包括三元组,即数据训练集可以三元组形式输入特征提取子网络。具体地,训练集数据表示为:X={(ai,bi,yi)|i=1,2,...,N},其中ai为第一模态数据(以下简称为模态1数据),bi为第二模态数据(以下简称为模态2数据),yi为模态种类标签。其中,对于模态1数据ai,可包括ai同类的模态2数据以及ai异类的模态2模态,即模态1数据为{ai,bp,bn},bp代表和ai同类的模态2数据,bn代表和ai异类的模态2数据。同理,对于模态2数据bi,可包括bi同类的模态2数据以及bi异类的模态2模态,即模态2数据为{bi,ap,an},ap代表和bi同类的模态1数据,an代表和bi异类的模态1数据。
本申请实施例中,例如,以实现文字检索图像为例,首先需要用大量包含文字以及图像的样本数据作为训练集数据,以训练跨模态数据检索模型,以便训练后的跨模态数据检索模型能够根据文字检索对应的图像,或者根据图像检索对应的文字。当然上述仅为举例,具体可根据需求设定。
103、根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征;
在该步骤中,本申请实施例所设置的多个特征提取子网络为参数不共享特征提取子网络。
本申请实施例中,以所述多模态数据包括第一模态数据以及第二模态数据为例,步骤103可具体包括:
1031、将所述第一模态数据的训练集数据输入对应的特征提取子网络,以输出所述第一模态数据对应的特异特征;
1032、将所述第二模态数据的训练集数据输入对应的特征提取子网络,以输出所述第二模态数据对应的特异特征。
需要说明的是,上述仅为举例说明,多模态数据还可以包括第三模态数据等,本申请对此不做限定,可根据需求设定。此外,在执行步骤103之前,为减小奇异样本数据导致的不良影响,可对所述训练集数据进行归一化处理。
104、将所述特异特征输入参数共享子网络,以输出多模态数据之间的共享空间特征;
本申请实施例中,通过设置参数共享子网络,能够将不同模态数据的特异特征映射到公共空间,进行有效的特征度量,以确定共享空间特征,从而能够有效对多模态数据去除冗余信息,以提升跨模态数据检索的精度。
105、利用损失函数调整所述共享空间特征,以完成所述跨模态数据检索模型的训练,所述跨模态数据检索模型用以输出所输入的多模态数据对应的共享空间特征。
在该步骤中,损失函数可根据需求设定,例如,损失函数可包括联合语义稀疏损失函数、交叉熵损失函数以及跨模态三元组损失函数。
需要说明的是,步骤104所输出的多模态数据之间的共享空间特征,为训练集数据中多模态数据之间的共享空间特征,而步骤105所输出的共享空间特征为经过损失函数调整后,能够输出测试集数据中多模态数据之间的共享空间特征。
本申请实施例中,作为一种可实现的方案,步骤105可包括:利用联合语义稀疏损失函数、交叉熵损失函数以及跨模态三元组损失函数,迭代更新所述共享空间特征所对应的权重值,直至各损失函数收敛,以完成所述跨模态数据检索模型的训练。
具体地,可包括:
1051、利用联合语义稀疏损失函数约束共享空间特征。
其中,联合语义稀疏损失函数为以下公式:
其中,Lu_s表示为联合语义稀疏损失函数,X和Z分别是第一模态数据和第二模态数据的原始信号,两种模态学习统一语义表征空间D,x和z是统一语义表征空间D下的对应第一模态数据和第二模态数据的稀疏表征。||·||0表示0范数,可以让学习到的共享空间特征呈现稀疏的特征,λ1和λ2是超参数。
在该步骤中,使用联合语义稀疏损失函数约束共享空间特征,学习到多个模态数据之间的统一语义表征空间,从而避免了冗余信息的干扰。
1052、利用交叉熵损失函数以及跨模态三元组损失函数,迭代更新所述共享空间特征所对应的权重值,直至各损失函数收敛,以完成所述跨模态数据检索模型的训练。
其中,交叉熵损失函数为以下公式:
其中,Lc表示为交叉熵损失函数,n代表样本数量,xi代表第一模态数据的共享空间特征,zi代表第二模态数据的共享空间特征,p(yi∣xi)代表对于第一模态数据的特征预测值,p(yi∣zi)代表对于第二模态数据的特征预测值。
其中,跨模态三元组损失函数为以下公式:
其中,对于第一模态数据的种类标签为yi的锚点样本特征xi,它和第二模态数据的同类样本特征zj的距离,应该小于它和模态2异类样本特征zk的距离。x和z代表不同模态的样本特征(即共享空间特征),i和j表示同类,i和k表示同类。ρi表示预定义的边界值,D(·)表示欧几里得距离,为了训练稳定所有的特征x和z都是标准化后的。
在该步骤中,利用交叉熵损失函数使得多模态数据的训练集数据有足够的可辨别性,通过结合三元组损失函数共同优化所述特异特征所对应的权重值、所述共享空间特征所对应的权重值,可以加快收敛速度,使优化过程更加稳定,提高跨模态数据的检索效率。此外,利用跨模态三元组损失函数能够保证相同类别的不同模态共享空间特征靠近,不同类别模态共享空间特征远离。
综上所述,训练跨模态数据检索模型需要的损失函数为:
L=Lc+Lc_trip+αLu_s
1054、使用Adam优化算法,通过损失函数L,迭代更新所述共享空间特征所对应的权重值,直至各损失函数收敛,以完成所述跨模态数据检索模型的训练。
进一步地,该方法还包括:
106、将调整后的所述特异特征以及所述共享空间特征作为检索库特征,并存储至检索库。
本申请实施例中,通过存储检索库特征,以便后续针对于测试集数据检索对应检索数据时,可计算测试集数据的共享空间特征以及检索库特征之间的相似度,确定出测试集数据的检索数据,从而提高跨模态数据检索的效率。
本申请实施例提供的跨模态数据检索模型的建立方法,通过设置多个特征提取子网络以及共享子网络的方式,从而能够有效对多模态数据去除冗余信息,以提升跨模态数据检索的精度。
图2为本申请提供的跨模态数据检索方法一个实施例的流程图。如图2所示,该跨模态数据检索方法包括如下步骤:
201、获取第一模态数据;
本申请实施例中,这里的第一模态数据可理解为测试集数据,与上文中所举例的训练集数据中包含第一模态数据的训练集数据以及第二模态数据的训练集数据不同。换句话说,这里的第一模态数据为当前获取的第一模态数据,而并非样本数据。该第一模态数据可随机输入,不需要限定三元组形式。
202、将所述第一模态数据输入所述跨模态数据检索模型,以获取所述跨模态数据检索模型输出的所述第一模态数据对应的共享空间特征;
本申请实施例中,在将所述第一模态数据输入所述跨模态数据检索模型之前,需要对第一模态数据进行归一化处理,以提高后续输出的检索数据的精度。
203、计算所述共享空间特征以及预先存储的检索库特征之间的相似度,确定所述第一模态数据对应的检索数据。
本申请实施例中,预先存储的检索库特征即为上个实施例中步骤106所述的“将调整后的所述特异特征以及所述共享空间特征作为检索库特征,并存储至检索库”。
作为一种可实现的方案,步骤203可包括:计算所述共享空间特征以及预先存储的检索库特征之间的相似度,并从检索库中检索出所述第一模态数据对应的检索数据。
作为另一种可实现的方案,步骤203可包括:计算所述共享空间特征和所述检索库特征之间的欧几里得距离,以确定所述共享空间特征以及所述检索库特征之间的相似度。
可选地,将检索结果按照相似度大小进行排序,并将前n个检索结果作为所述第一模态数据对应的检索数据。
其中,n可根据需求设定,例如,n=1000。
本申请实施例提供的跨模态数据检索方法,通过获取第一模态数据;将所述第一模态数据输入所述跨模态数据检索模型,以获取所述跨模态数据检索模型输出的所述第一模态数据对应的共享空间特征;计算所述共享空间特征以及预先存储的检索库特征之间的相似度,确定所述第一模态数据对应的检索数据,提升了跨模态数据检索的精度。
图3为本申请提供的跨模态数据检索模型的建立装置一个实施例的结构示意图,可用于执行如图1所示的方法步骤。如图3所示,该跨模态数据检索模型的建立装置可以包括:建立模块31、第一获取模块32、第一处理模块33和训练模块34。
建立模块31,用于基于多个特征提取子网络以及共享子网络,建立跨模态数据检索模型;
第一获取模块32,用于获取多模态数据的训练集数据,所述多模态数据包括多种模态数据;
第一处理模块33,用于根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征;将所述特异特征输入参数共享子网络,以输出多模态数据之间的共享空间特征;
训练模块34,用于利用损失函数调整所述共享空间特征,以完成所述跨模态数据检索模型的训练,所述跨模态数据检索模型用以输出所输入的多模态数据对应的共享空间特征。
可选地,在本申请实施例中,所述多模态数据包括第一模态数据以及第二模态数据;该模型的第一处理模块33具体用于将所述第一模态数据的训练集数据输入对应的特征提取子网络,以输出所述第一模态数据对应的特异特征;将所述第二模态数据的训练集数据输入对应的特征提取子网络,以输出所述第二模态数据对应的特异特征。
可选地,在本申请实施例中,该模型的第一处理模块33还用于将调整后的所述特异特征以及所述共享空间特征作为检索库特征,并存储至检索库。
可选地,在本申请实施例中,该模型的训练模块34具体用于利用联合语义稀疏损失函数、交叉熵损失函数以及跨模态三元组损失函数,迭代更新所述特异特征所对应的权重值、所述共享空间特征所对应的权重值,直至各损失函数收敛,以完成所述跨模态数据检索模型的训练。
可选地,在本申请实施例中,该模型的第一处理模块33还用于对所述训练集数据进行归一化处理。
可选地,在本申请实施例中,所述训练集数据包括三元组。
图4为本申请提供的跨模态数据检索装置一个实施例的结构示意图,可用于执行如图2所示的方法步骤。如图4所示,该跨模态数据检索装置可以包括:第二获取模块41、第二处理模块42和确定模块43。
第二获取模块41,用于获取第一模态数据;
第二处理模块42,用于将所述第一模态数据输入所述跨模态数据检索模型,以获取所述跨模态数据检索模型输出的所述第一模态数据对应的共享空间特征;
确定模块43,用于计算所述共享空间特征以及预先存储的检索库特征之间的相似度,确定所述第一模态数据对应的检索数据。
可选地,在本申请实施例中,该装置的确定模块43具体用于计算所述共享空间特征以及预先存储的检索库特征之间的相似度,并从检索库中检索出所述第一模态数据对应的检索数据。
可选地,在本申请实施例中,该装置的确定模块43具体用于计算所述共享空间特征和所述检索库特征之间的欧几里得距离,以确定所述共享空间特征以及所述检索库特征之间的相似度。
可选地,在本申请实施例中,该装置的确定模块43具体用于将检索结果按照相似度大小进行排序,并将前n个检索结果作为所述第一模态数据对应的检索数据。
本申请实施例还提供了一种计算设备,如图5所示,该设备可以包括存储组件501及处理组件502;
该存储组件501存储一条或多条计算机程序指令,其中,一条或多条计算机程序指令供处理组件502调用执行,以实现图1所示的跨模态数据检索模型的建立方法。
当然,上述计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被计算机执行时可以实现图1所示的跨模态数据检索模型的建立方法。该计算机可读介质可以是上述实施例中描述的计算设备中所包含的;也可以是单独存在,而未装配入该计算设备中。
需要说明的是,上述计算设备可以为物理设备或者云计算平台提供的弹性计算主机等。其可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。
本申请实施例还提供了一种电子设备,如图6所示,该设备可以包括存储组件601及处理组件602;
该存储组件601存储一条或多条计算机程序指令,其中,一条或多条计算机程序指令供处理组件602调用执行,以实现图2所示的跨模态数据检索方法。
当然,上述电子设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信等。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被计算机执行时可以实现图2所示的跨模态数据检索方法。该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
前文相应实施例中涉及的处理组件可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件被配置为存储各种类型的数据以支持在终端的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRA至少一),电可擦除可编程只读存储器(EEPRO至少一),可擦除可编程只读存储器(EPRO至少一),可编程只读存储器(PRO至少一),只读存储器(RO至少一),磁存储器,快闪存储器,磁盘或光盘。
计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如RO至少一/RA至少一、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种跨模态数据检索模型的建立方法,其特征在于,包括:
基于多个特征提取子网络以及共享子网络,建立跨模态数据检索模型;
获取多模态数据的训练集数据,所述多模态数据包括多种模态数据;
根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征;
将所述特异特征输入参数共享子网络,以输出多模态数据之间的共享空间特征;
利用损失函数调整所述共享空间特征,以完成所述跨模态数据检索模型的训练,所述跨模态数据检索模型用以输出所输入的多模态数据对应的共享空间特征。
2.根据权利要求1所述的方法,其特征在于,所述多模态数据包括第一模态数据以及第二模态数据;
所述根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征,包括:
将所述第一模态数据的训练集数据输入对应的特征提取子网络,以输出所述第一模态数据对应的特异特征;
将所述第二模态数据的训练集数据输入对应的特征提取子网络,以输出所述第二模态数据对应的特异特征。
3.根据权利要求1所述的方法,其特征在于,还包括:将调整后的所述特异特征以及所述共享空间特征作为检索库特征,并存储至检索库。
4.根据权利要求1所述的方法,其特征在于,利用损失函数调整所述共享空间特征,以完成所述跨模态数据检索模型的训练,包括:
利用联合语义稀疏损失函数、交叉熵损失函数以及跨模态三元组损失函数,迭代更新所述特异特征所对应的权重值、所述共享空间特征所对应的权重值,直至各损失函数收敛,以完成所述跨模态数据检索模型的训练。
5.根据权利要求2所述的方法,其特征在于,在所述根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征之前,还包括:
对所述训练集数据进行归一化处理。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述训练集数据包括三元组。
7.一种跨模态数据检索方法,其特征在于,包括:
获取第一模态数据;
将所述第一模态数据输入所述跨模态数据检索模型,以获取所述跨模态数据检索模型输出的所述第一模态数据对应的共享空间特征;
计算所述共享空间特征以及预先存储的检索库特征之间的相似度,确定所述第一模态数据对应的检索数据。
8.根据权利要求7所述的方法,其特征在于,所述计算所述共享空间特征以及预先存储的检索库特征之间的相似度,确定所述第一模态数据对应的检索数据,包括:
计算所述共享空间特征以及预先存储的检索库特征之间的相似度,并从检索库中检索出所述第一模态数据对应的检索数据。
9.根据权利要求7或8所述的方法,其特征在于,所述计算所述共享空间特征以及所述检索库特征之间的距离,包括:
计算所述共享空间特征和所述检索库特征之间的欧几里得距离,以确定所述共享空间特征以及所述检索库特征之间的相似度。
10.根据权利要求7所述的方法,其特征在于,所述计算所述共享空间特征以及所述检索库特征之间的相似度,确定所述第一模态数据对应的检索数据,包括:
将检索结果按照相似度大小进行排序,并将前n个检索结果作为所述第一模态数据对应的检索数据。
11.一种跨模态数据检索模型的建立装置,其特征在于,包括:
建立模块,用于基于多个特征提取子网络以及共享子网络,建立跨模态数据检索模型;
第一获取模块,用于获取多模态数据的训练集数据,所述多模态数据包括多种模态数据;
第一处理模块,用于根据所述多模态数据所包含的模态种类,分别将所述训练集数据中对应的模态数据输入对应的特征提取子网络,以分别输出每种模态数据对应的特异特征;将所述特异特征输入参数共享子网络,以输出多模态数据之间的共享空间特征;
训练模块,用于利用损失函数调整所述共享空间特征,以完成所述跨模态数据检索模型的训练,所述跨模态数据检索模型用以输出所输入的多模态数据对应的共享空间特征。
12.一种跨模态数据检索装置,其特征在于,包括:
第二获取模块,用于获取第一模态数据;
第二处理模块,用于将所述第一模态数据输入所述跨模态数据检索模型,以获取所述跨模态数据检索模型输出的所述第一模态数据对应的共享空间特征;
确定模块,用于计算所述共享空间特征以及预先存储的检索库特征之间的相似度,确定所述第一模态数据对应的检索数据。
13.一种计算设备,其特征在于,包括存储组件及处理组件;所述存储组件存储一条或多条计算机程序指令,所述计算机程序指令供所述处理组件调用执行,所述处理组件执行所述一条或多条计算机程序指令以实现如权利要求1-6任一项所述的跨模态数据检索模型的建立方法。
14.一种计算设备,其特征在于,包括存储组件及处理组件;所述存储组件存储一条或多条计算机程序指令,所述计算机程序指令供所述处理组件调用执行,所述处理组件执行所述一条或多条计算机程序指令以实现如权利要求7-10任一项所述的跨模态数据检索方法。
15.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被计算机执行时实现如权利要求1-6任一项所述的跨模态数据检索模型的建立方法,或权利要求7-10任一项所述的跨模态数据检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211247622.5A CN115617945A (zh) | 2022-10-12 | 2022-10-12 | 跨模态数据检索模型的建立方法以及跨模态数据检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211247622.5A CN115617945A (zh) | 2022-10-12 | 2022-10-12 | 跨模态数据检索模型的建立方法以及跨模态数据检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115617945A true CN115617945A (zh) | 2023-01-17 |
Family
ID=84861888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211247622.5A Pending CN115617945A (zh) | 2022-10-12 | 2022-10-12 | 跨模态数据检索模型的建立方法以及跨模态数据检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115617945A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775918A (zh) * | 2023-08-22 | 2023-09-19 | 四川鹏旭斯特科技有限公司 | 基于互补熵对比学习跨模态检索方法、系统、设备及介质 |
-
2022
- 2022-10-12 CN CN202211247622.5A patent/CN115617945A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775918A (zh) * | 2023-08-22 | 2023-09-19 | 四川鹏旭斯特科技有限公司 | 基于互补熵对比学习跨模态检索方法、系统、设备及介质 |
CN116775918B (zh) * | 2023-08-22 | 2023-11-24 | 四川鹏旭斯特科技有限公司 | 基于互补熵对比学习跨模态检索方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022068196A1 (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
WO2022161380A1 (zh) | 一种训练模型的方法、图像检索的方法以及装置 | |
CA2786727C (en) | Joint embedding for item association | |
CN109446341A (zh) | 知识图谱的构建方法及装置 | |
CN108804641A (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
JP2022191412A (ja) | マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
US20210166058A1 (en) | Image generation method and computing device | |
CN111178196B (zh) | 一种细胞分类的方法、装置及设备 | |
CN112395487A (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
CN110765882A (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
JP7393475B2 (ja) | 画像を検索するための方法、装置、システム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
CN111488479B (zh) | 超图构建方法、装置以及计算机系统和介质 | |
CN110083731B (zh) | 图像检索方法、装置、计算机设备及存储介质 | |
CN115617945A (zh) | 跨模态数据检索模型的建立方法以及跨模态数据检索方法 | |
CN111598000A (zh) | 基于多任务的人脸识别方法、装置、服务器和可读存储介质 | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN111259176A (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN114706927B (zh) | 基于人工智能的数据批量标注方法及相关设备 | |
CN113139558A (zh) | 确定物品的多级分类标签的方法和装置 | |
CN115098644A (zh) | 图像与文本匹配方法、装置、电子设备及存储介质 | |
CN114610953A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN114443864A (zh) | 跨模态数据的匹配方法、装置及计算机程序产品 | |
CN113806610A (zh) | 一种数据的聚类方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |