CN110597878B - 一种多模态数据的跨模态检索方法、装置、设备及介质 - Google Patents

一种多模态数据的跨模态检索方法、装置、设备及介质 Download PDF

Info

Publication number
CN110597878B
CN110597878B CN201910871966.5A CN201910871966A CN110597878B CN 110597878 B CN110597878 B CN 110597878B CN 201910871966 A CN201910871966 A CN 201910871966A CN 110597878 B CN110597878 B CN 110597878B
Authority
CN
China
Prior art keywords
data
sample data
training sample
constraint
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910871966.5A
Other languages
English (en)
Other versions
CN110597878A (zh
Inventor
刘文印
康培培
王崎
林泽航
徐凯
杨振国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910871966.5A priority Critical patent/CN110597878B/zh
Publication of CN110597878A publication Critical patent/CN110597878A/zh
Application granted granted Critical
Publication of CN110597878B publication Critical patent/CN110597878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开了一种多模态数据的跨模态检索方法、装置、设备及计算机可读存储介质,方法包括:将不同模态的训练样本数据分批次输入至与各模态分别对应的深度神经网络中,得到各训练样本数据的样本数据特征;分别将各样本数据特征映射至共同空间中,根据同一类别的不同模态的各训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数;利用损失函数调整深度神经网络的网络参数,确定出目标特征提取模型;在获取到不同模态的目标数据和待检索数据后,调用目标特征提取模型进行跨模态检索操作,得出与目标数据对应的待检索数据的检索排序结果,使得目标特征提取模型能够提取更高质量的数据特征,从而提高多模态数据的跨模态检索的准确度。

Description

一种多模态数据的跨模态检索方法、装置、设备及介质
技术领域
本发明涉及数据检索领域,特别涉及一种多模态数据的跨模态检索方法、装置、设备及计算机可读存储介质。
背景技术
随着信息化社会的不断推进,多模态数据的跨模态检索在实际生活中的应用越来越广泛。例如,根据一段语音信息检索与该语音信息的描述相对应的图像信息;或者根据文本信息检索与该文本信息的描述相对应的语音信息等。
在跨模态检索的过程中,需要获取跨模态数据的共同数据特征,使其可以直接进行比较。利用深度神经网络提取多模态数据的数据特征的质量,将直接影响多模态数据的跨模态检索的准确度。因此,为了提高深度神经网络提取数据特征的质量,一般是在将各模态的样本数据(包括目标样本数据和待检索样本数据)的数据特征映射到共同空间之后,根据样本数据在共同空间中的共同空间表示得出目标样本数据与待检索样本数据的对应关系,并将该对应关系与预先设置的样本数据中目标样本数据与各待检索样本数据的对应关系进行比较;根据比较的差距情况对深度神经网络的网络参数进行调整,从而确定出目标特征提取模型。但是,样本数据中并不是绝对存在对应关系,因此按照现有技术的方法,利用相关性排序并根据排序的结果对深度神经网络的网络参数进行调节的方式,仍存在调节不准确的情况,从而导致多模态数据的跨模态检索的准确度降低。
因此,如何提高多模态数据的跨模态检索的准确度,是本领域技术人员目前需要解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种多模态数据的跨模态检索方法,能够提高多模态数据的跨模态检索的准确度;本发明的另一目的是提供一种多模态数据的跨模态检索装置、设备及计算机可读存储介质,均具有上述有益效果。
为解决上述技术问题,本发明提供一种多模态数据的跨模态检索方法,包括:
将不同模态的训练样本数据分批次输入至与各模态分别对应的深度神经网络中,得到各所述训练样本数据的样本数据特征;
分别将各所述样本数据特征映射至共同空间中,根据同一类别的不同模态的各所述训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数;
利用所述损失函数调整所述深度神经网络的网络参数,确定出目标特征提取模型;
在获取到不同模态的目标数据和待检索数据后,调用所述目标特征提取模型进行跨模态检索操作,得出与所述目标数据对应的待检索数据的检索排序结果。
优选地,所述利用所述损失函数调整所述深度神经网络的网络参数,确定出目标特征提取模型具体包括:
在每次计算出损失函数后,利用所述损失函数调整所述深度神经网络的所述网络参数,得到更新的深度神经网络;
将检测样本数据输入至所述更新的深度神经网络中,得到所述检测样本数据的检测样本数据特征;其中,所述检测样本数据包括目标样本数据和多个待检索样本数据;
计算所述目标样本数据与各所述待检索样本数据在所述共同空间的样本距离;
根据各所述样本距离计算出对应的检索准确率;
根据多次得出的所述检索准确率中的最高检索准确率确定出所述目标特征提取模型。
优选地,所述分别将各所述样本数据特征映射至共同空间中,根据同一类别的不同模态的各所述训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数具体包括:
将各所述样本数据特征按照预设批次分别映射至共同空间中,得到各批次的所述训练样本数据xm,j在所述共同空间中的共同空间表示sm,j
其中,xm,j(m=1,2,...,M;j=1,2,...,bz)表示第m个模态的第j个训练样本数据;M表示模态总数,bz为单个批次中的训练样本数据的数据量;sm,j为xm,j的共同空间表示;
利用类内低秩损失约束函数计算出单个批次中不同模态的共同空间表示的类内低秩损失约束:
其中,表示单个批次中类别为c的训练样本数据对应的共同空间表示所组成的矩阵;γ=bz/k表示单个批次中数据类别的数量,bz表示单个批次中的训练样本数据的数据量,k表示单个批次中每个数据类别对应的训练样本数据的数据量;
利用交叉熵损失函数计算出单个批次中不同模态的共同空间表示的语义一致约束:
其中,class表示类别索引;C表示总类别数;
根据所述类内低秩损失约束和所述语义一致约束计算出所述损失函数:
L'=L'CE+α'L'IL
其中,α'表示单个批次中的所述类内低秩损失约束和所述语义一致约束的平衡参数。
优选地,所述根据多次得出的所述检索准确率,并根据最高检索准确率确定出所述目标特征提取模型具体为:
比较当次的检索准确率与记录的最高检索准确率的大小关系;
若所述当次的检索准确率大于所述记录的最高检索准确率,则利用所述当次的检索准确率更新所述记录的最高检索准确率;
若所述当次的检索准确率小于所述记录的最高检索准确率,则将所述记录的最高检索准确率对应的深度神经网络设置为所述目标特征提取模型。
为解决上述技术问题,本发明还提供一种多模态数据的跨模态检索装置,包括:
特征提取模块,用于将不同模态的训练样本数据分批次输入至与各模态分别对应的深度神经网络中,得到各所述训练样本数据的样本数据特征;
损失函数计算模块,用于分别将各所述样本数据特征映射至共同空间中,根据同一类别的不同模态的各所述训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数;
模型确定模块,用于利用所述损失函数调整所述深度神经网络的网络参数,确定出目标特征提取模型;
检索执行模块,用于在获取到不同模态的目标数据和待检索数据后,调用所述目标特征提取模型进行跨模态检索操作,得出与所述目标数据对应的待检索数据的检索排序结果。
为解决上述技术问题,本发明还提供一种多模态数据的跨模态检索设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一种多模态数据的跨模态检索方法的步骤。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种多模态数据的跨模态检索方法的步骤。
本发明提供一种多模态数据的跨模态检索方法,相较于现有技术中利用相关性排序并根据排序的结果对深度神经网络的网络参数进行调节的方式,本方法通过计算类内低秩损失约束,使得同一类别的不同模态的样本数据在共同空间中的表示尽量一致,也即,使得各处于共同空间中的样本数据具有类内低秩结构,利用类内低秩损失约束和语义一致约束计算出对应的损失函数调整深度神经网络的网络参数,使得确定出的目标特征提取模型能够提取更高质量的数据特征,从而提高多模态数据的跨模态检索的准确度。
为解决上述技术问题,本发明还提供了一种多模态数据的跨模态检索装置、设备及计算机可读存储介质,均具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种多模态数据的跨模态检索方法的流程图;
图2为本发明实施例提供的一种确定目标特征提取模型的方法流程图;
图3为本发明实施例提供的一种目标特征提取模型的框架示意图;
图4为本发明实施例提供的一种单模态数据分批次的方法示意图;
图5为本发明实施例提供的一种多模态数据的跨模态检索方法中计算类内低秩约束损失过程的示意图;
图6为本发明实施例提供的一种多模态数据的跨模态检索装置的结构图;
图7为本发明实施例提供的一种多模态数据的跨模态检索设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的核心是提供一种多模态数据的跨模态检索方法,能够提高多模态数据的跨模态检索的准确度;本发明的另一核心是提供一种多模态数据的跨模态检索装置、设备及计算机可读存储介质,均具有上述有益效果。
为了使本领域技术人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明实施例提供的一种多模态数据的跨模态检索方法的流程图。如图1所示,一种多模态数据的跨模态检索方法包括:
S10:将不同模态的训练样本数据分批次输入至与各模态分别对应的深度神经网络中,得到各训练样本数据的样本数据特征。
具体的,先将各不同模态的训练样本数据分为多个批次,然后将各训练样本数据按批次分别输入至与各模态分别对应的深度神经网络中,从而利用各对应的深度神经网络提取出训练样本数据的样本数据特征。
需要说明的是,对于同一模态而言,每个模态对应有多个数据类别,每种数据类别对应有多个训练样本数据。在将训练样本数据划分批次时,各个批次中均需包含有不同类别的多个训练样本数据,各模态每个批次中的类别相互对应,并且每个批次中的每类训练样本数据的数量是相等的。不同模态的批次的数量因对应的模态中的训练样本数据的数据量的不同而不同,具体可以通过各模态中训练样本数据的数据量除以单个批次中的训练样本数据的数据量并取上整数的方式得到。
需要说明的是,数据的模态可以是文本、图像、语音、视频等,多模态数据指的是包含上述中的两种或两种以上的模态数据。可以理解的是,由于本实施例是为了实现多模态数据的跨模态检索,因此需要使得训练样本数据中的交叉模态数据间有一定的相关性。
可以理解的是,由于各不同模态的训练样本数据提取特征的方式将有所差别,因此需要将不同模态的训练样本数据输入至与各模态分别对应的深度神经网络中,例如,用于提取文本数据特征的深度神经网络、用于提取图像数据特征的深度神经网络等,分别利用与各模态数据相对应深度神经网络提取数据特征。需要说明的是,本实施例对用于特征提取的深度神经网络的具体类型不做限定。
S20:分别将各样本数据特征映射至共同空间中,根据同一类别的不同模态的各训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数。
具体的,在分别利用对应的深度神经网络提取对应的训练样本数据的数据特征,得到样本数据特征之后,通过投影层将各样本数据特征映射至共同空间中,根据同一类别的不同模态的共同空间表示的类内低秩约束函数,并计算各训练样本数据的交叉熵损失函数约束语义一致性,然后通过计算类内低秩约束函数与交叉熵损失函数的和,得出对应的损失函数。
S30:利用损失函数调整深度神经网络的网络参数,确定出目标特征提取模型。
具体的,在计算出损失函数之后,则利用损失函数调整深度神经网络的网络参数,也即利用优化目标反向传播,通过调整深度神经网络的网络参数,从而确定出目标特征提取模型。目标特征提取模型也即用于从待检索数据中检索出与目标数据对应的数据的检索模型。
S40:在获取到不同模态的目标数据和待检索数据后,调用目标特征提取模型进行跨模态检索操作,得出与目标数据对应的待检索数据的检索排序结果。
具体的,在实际操作中,在确定出目标数据和待检索数据之后,可以先判断当前是否存在目标特征提取模型;若存在,则直接调用目标特征提取模型进行多模态数据的跨模态检索操作;若不存在,则需要按照S10~S30的步骤训练得出目标特征提取模型,再执行调用目标特征提取模型进行多模态数据的跨模态检索操作。
具体的,利用目标特征提取模型实现跨模态检索的步骤包括:将目标数据和待检索数据分别输入至目标特征提取模型中,利用目标特征提取模型分别提取出目标数据的目标数据特征与各待检索数据的待检索数据特征,然后利用投影层将目标数据特征和待检索数据特征映射至共同空间中,计算共同空间中各待检索数据与目标数据的目标距离,根据各目标距离确定出各对应的待检索数据与目标数据的相关度,根据相关度排序得出待检索数据的检索排序结果。在具体实施中,检索排序结果可以通过将目标距离按照从小到大的顺序排列,并按照对应的顺序排列各目标距离对应的待检索数据得出。
本发明实施例提供一种多模态数据的跨模态检索方法,相较于现有技术中利用相关性排序并根据排序的结果对深度神经网络的网络参数进行调节的方式,本方法通过计算类内低秩损失约束,使得同一类别的不同模态的样本数据在共同空间中的表示尽量一致,也即,使得各处于共同空间中的样本数据具有类内低秩结构,利用类内低秩损失约束和语义一致约束计算出对应的损失函数调整深度神经网络的网络参数,使得确定出的目标特征提取模型能够提取高质量的数据特征,从而提高多模态数据的跨模态检索的准确度。
图2为本发明实施例提供的一种确定目标特征提取模型的方法流程图。如图2所示,在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化。具体的,本实施例主要对“利用损失函数调整深度神经网络的网络参数,确定出目标特征提取模型”的步骤作进一步解释说明,其余步骤请参考上一实施例中的描述,此处不做赘述。在本实施例中,利用损失函数调整深度神经网络的网络参数,确定出目标特征提取模型具体包括:
S31:在每次计算出损失函数后,利用损失函数调整深度神经网络的网络参数,得到更新的深度神经网络;
S32:将检测样本数据输入至特征提取模型中,得到检测样本数据的检测样本数据特征;其中,检测样本数据包括目标样本数据和多个待检索样本数据。
具体的,在每次利用损失函数对深度神经网络的网络参数进行调整后,都将得到与调整的网络参数对应的深度神经网络,即更新的深度神经网络。
对应的,在每次得出更新的深度神经网络之后,将检测样本数据输入至该更新的深度神经网络中,得到对应的检测样本数据特征。需要说明的是,检测样本数据也即用于检测更新的深度神经网络的准确度的样本数据,以便确定出目标特征提取模型。检测样本数据可以是与训练样本数据相同的数据集,也可以是将预先设置的数据集按照预设比例划分为训练样本数据和检测样本数据得出,本实施例对此不做限定。
需要说明的是,在每次对深度神经网络的网络参数进行调整之后,输入检测样本数据进行检测。因此也可以按照如训练样本数据分批次的方法将检测样本数据分批次输入至更新的深度神经网络中进行检测。另外需要说明的是,由于需要利用检测样本数据检测多模态数据的跨模态检索性能,因此检测样本数据也需要包括目标样本数据和多个待检索样本数据。
S33:计算目标样本数据与各待检索样本数据在共同空间的样本距离;
S34:根据各样本距离计算出对应的检索准确率;
S35:根据多次得出的检索准确率中的最高检索准确率确定出目标特征提取模型。
需要说明的是,本实施例在将目标样本数据特征和待检索样本数据特征变换到共同空间之后,需要分别计算共同空间中的各待检索样本数据与目标样本数据之间的样本距离,以衡量各待检索样本数据与目标样本数据的相关性,样本距离越小,相关性越大。并且可以将各样本距离按照从小到大的顺序排列,得到样本排序结果,再根据各样本距离计算出对应的检索准确率。具体的,假设检测样本数据中的第i个目标样本数据的共同空间表示为sm1,i,待检索样本数据的共同空间表示为sm2,且其中,m1和m2分别表示目标样本数据和待检索样本数据的模态,m1∈{1,2,…,M},m2∈{1,2,…,M},且m1≠m2,则计算sm1,i与sm2,j的样本距离的方式为:
d=distance(sm1,i,sm2,j);
其中,距离公式distance可以具体为计算欧氏距离、K-L距离、余弦距离等距离的公式,本实施例对此不做限定。
具体的,本实施例是通过分别计算目标样本数据与各待检索样本数据在共同空间的样本距离,然后将根据样本距离得出的检索结果与待检索样本数据和目标样本数据的真实关系进行比较,计算出检索准确率。
更具体的,在实际操作中,是在将一批检测样本数据输入至更新的深度神经网络中,并计算出该深度神经网络对应的检索准确率后;再次根据损失函数调整深度神经网络的网络参数,更新深度神经网络,也即再次得出的深度神经网络是在原来的深度神经网络的基础上通过再次调整网络参数得出的。然后向更新的深度神经网络输入一批检测样本数据,并计算出对应的检索准确率。经过多次循环迭代操作,将得出多个检索准确率,通过从多个检索准确率中比较得出最高检索准确率,该最高检索准确率表征对应的深度神经网络能够提取出质量高的数据特征,因此将该更新的深度神经网络作为目标特征提取模型。
本发明实施例所提供的一种多模态数据的跨模态检索方法,能够得出使得检索准确率达到最高的目标特征提取模型,能够相对提高多模态数据的跨模态检索的准确度。
作为优选的实施方式,根据多次得出的检索准确率中的最高检索准确率确定出目标特征提取模型具体为:
比较当次的检索准确率与记录的最高检索准确率的大小关系;
若当次的检索准确率大于记录的最高检索准确率,则利用当次的检索准确率更新记录的最高检索准确率;
若当次的检索准确率小于记录的最高检索准确率,则将记录的最高检索准确率对应的深度神经网络设置为目标特征提取模型。
具体的,在计算出损失函数之后,通过网络优化方法如SGD(随梯度下降)的方法更新深度神经网络的网络参数,得到对应的更新的深度神经网络;并且,每次利用检测样本数据检测对应的深度神经网络时,都将得出对应的检索准确率。为了获取到能够得出最高检索准确率目标特征提取模型,本实施例是在每次得出检索准确率,即获取到当次的检索准确率时,将当次的检索准确率与记录的最高检索准确率进行比较,若当次的检索准确率大于记录的最高检索准确率,则用当次的检索准确率更新记录的最高检索准确率;否则,则保持记录的最高检索准确率。
并且,由于在利用损失函数更新深度神经网络的过程中,损失函数的值将逐渐减小,检索准确率一般随损失函数的减小呈先增大后减小的趋势。因此,在具体实施中,当当次的检索准确率小于记录的最高检索准确率时,表示该记录的最高检索准确率为最终的最高检索准确率,则根据记录的最高检索准确率获取对应的网络参数,从而得出对应的目标特征提取模型。
另外需要说明的是,本实施例对计算检索准确率的方式不做限定,本实施例中优选地采用WAP(平均准确率)的方式进行计算,也即通过计算每一批检测样本数据中的目标样本数据对应的检索准确率,进而计算出平均检索准确率,将计算出的平均值作为对应的深度神经网络的检索准确率。
可见,本实施例通过比较当次的检索准确率与记录的最高检索准确率的大小关系;若当次的检索准确率大于记录的最高检索准确率,则利用当次的检索准确率更新记录的最高检索准确率;若当次的检索准确率小于记录的最高检索准确率,则将记录的最高检索准确率对应的深度神经网络设置为目标特征提取模型,因此能够快速准确地得出最高检索准确率,从而确定出目标特征提取模型。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,在本实施例中,步骤“分别将各样本数据特征映射至共同空间中,根据同一类别的不同模态的各训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数”具体包括:
将各样本数据特征按照预设批次分别映射至共同空间中,得到各批次的训练样本数据xm,j在共同空间中的共同空间表示sm,j
其中,xm,j(m=1,2,...,M;j=1,2,...,bz)表示第m个模态的第j个训练样本数据;M表示模态总数,bz为单个批次中的训练样本数据的数据量;sm,j为xm,j的共同空间表示;
利用类内低秩损失约束函数计算出单个批次中不同模态的共同空间表示的类内低秩损失:
其中,表示单个批次中类别为c的训练样本数据对应的共同空间表示所组成的矩阵;γ=bz/k表示单个批次中数据类别的数量,bz表示单个批次中的训练样本数据的数据量,k表示单个批次中每个数据类别对应的训练样本数据的数据量;
利用交叉熵损失函数计算出单个批次中不同模态的共同空间表示的语义一致约束:
其中,class表示类别索引;C表示总类别数;
根据类内低秩损失约束和语义一致约束计算出损失函数:
L'=L'CE+α'L'IL
其中,α'表示单个批次中的类内低秩损失约束和语义一致约束的平衡参数。
具体的,请参考图3,图3为本发明实施例提供的一种目标特征提取模型的框架示意图。在将训练样本数据xm,j(m=1,2,...,M;j=1,2,...,nm)输入至对应的深度神经网络中后,得到对应的样本数据特征/>其中,θm表示深度神经网络/>中的参数,记为/>dm表示训练样本数据经过深度神经网络/>输出的数据特征的维度;然后将各数据特征fm,j输入至对应的投影层ρm,利用投影层ρm将训练样本数据的特征数据映射至共同空间,得到共同空间表示ρmm,fm,j),记为sm,j∈R1×c;ωm表示第m个模态对应的投影层ρm中的参数。
结合图4所示的一种单模态数据分批次的方法示意图,第m个(共M个)模态所含类别序列为labelbz,labelbz[γ]表示不同的数据类别,表示数据类别的数量,bz为单个批次中的训练样本数据的数据量,每个数据类别对应有k个训练样本数据。因此,在对单个模态数据进行批次划分后,划分后的一个批次为:
其中,数据类别为labelbz[c]的k个训练样本数据组成数据集为:
假定第m个模态中共有nm个训练样本数据,每个批次中有bz个训练样本数据(批次大小为bz),则第m个模态数据可分为个批次,单次循环所含批次数为:
τ=max(τ1,…,τm,…,τM)。
在将训练样本数据按照预设批次划分后,每个批次中的训练样本数据为xm,j(m=1,2,...,M;j=1,2,...,bz),对应的将样本数据特征按照预设批次分别映射至共同空间中,得到各批次的训练样本数据xm,j在共同空间中的共同空间表示sm,j
可以理解的是,为了通过各批次的检测样本数据对深度神经网络的网络参数进行调整更新,得出目标特征提取模型,需要对应计算出每个批次对应的损失函数。在本实施例中,在设计损失函数的过程中,充分考虑了多模态数据的语义一致性,即,使得各模态数据均能正确分类到相应的高层语义,采用了交叉熵损失函数;另外,为了使得同一类别的不同模态数据在共同空间的表示尽量一致,也就是拥有类内低秩的结构,所以设计了类内低秩损失约束函数。
结合图5所示的一种多模态数据的跨模态检索方法中计算类内低秩约束损失过程的示意图进行说明。可以理解的是,一般的计算类内低秩损失约束的过程包括:假定第m个模态数据在共同空间的表示为
其中,为类别为c的kc个训练样本数据组成的矩阵,因此,可以将第c个类别的多模态样本拼接为矩阵的形式:
从而得到第c类训练样本数据的类内低秩损失约束为:
进而计算出所有类别的训练样本数据的类内低秩损失约束:
因此,在本实施例中,计算单批次中的类内低秩损失约束的过程包括:
利用类内低秩损失约束函数计算出单个批次中不同模态的共同空间表示的类内低秩损失:
其中,
表示单个批次中类别为labelbz[c]的训练样本数据对应的共同空间表示所组成的矩阵;γ=bz/k表示数据类别的数量,bz表示单个批次中的训练样本数据的数据量,k表示每个数据类别对应的训练样本数据的数据量。
具体的,单个批次中第m个模态数据在共同空间的表示为:
其中,为单个批次中类别为labelbz[c]的第k个样本组成的矩阵,因此,可以将单个批次中第c个类别的多模态样本拼接为矩阵的形式:
从而得到单个批次中第c个类别的类内低秩约束损失函数为:
因此,单个批次总的类内低秩约束损失约束为:
具体的,一般的语义一致约束的计算过程包括:在获取到训练样本数据的数据特征后,先将训练样本数据特征经过softmax函数,得到类预测概率,并使类预测概率更接近真实标签。假定输入训练样本数据xm,j的真实类别索引为class,训练样本数据xm,j的交叉熵损失函数定义为:
其中,sm,j为xm,j在共同空间的共同空间表示,计算多个模态的总的交叉熵损失函数为:
利用交叉熵损失函数计算出单个批次中不同模态的共同空间表示的语义一致约束:
其中,class表示类别索引;C表示总类别数。
根据类内低秩损失约束和语义一致约束计算出对应的损失函数:
L'=L'CE+α'L'IL
其中,α'表示单个批次中的类内低秩损失约束和语义一致约束的平衡参数。
需要说明的是,各模态数据在原始空间中具有不同的特征描述及分布,因此难以比较他们之间的关系。把这些多模态数据变换到共同空间,理想情况下,同类的多模态数据应具有相似的表示,或者说相关性较大。线性代数中矩阵的秩可以衡量矩阵中向量组的线性相关性,矩阵的秩越小,向量组的相关性越大。因此,将同类的多模态数据拼接为矩阵形式,并约束该矩阵的秩最小,以增强同类多模态数据的相关性。
可以理解的是,损失函数为多种损失之和,因此本实施例结合交叉熵损失和类内低秩损失,可以得到单个批次的损失函数为:
L′=L′CE+α′L′IL
其中,α′为交叉熵损失和类内低秩损失的平衡参数。
可见,本发明实施例提供的一种多模态数据的跨模态检索方法,相较于现有技术中利用相关性排序并根据排序的结果对深度神经网络的网络参数进行调节的方式,本方法通过计算类内低秩损失约束,使得同一类别的不同模态的样本数据在共同空间中的表示尽量一致,也即,使得各处于共同空间中的样本数据具有类内低秩结构,利用类内低秩损失约束和语义一致约束计算出对应的损失函数调整深度神经网络的网络参数,使得确定出的目标特征提取模型能够提取更高质量的数据特征,从而提高多模态数据的跨模态检索的准确度。
上文对于本发明提供的一种多模态数据的跨模态检索方法的实施例进行了详细的描述,本发明还提供了一种与该方法对应的多模态数据的跨模态检索装置、设备及计算机可读存储介质,由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应,因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图6为本发明实施例提供的一种多模态数据的跨模态检索装置的结构图,如图6所示,一种多模态数据的跨模态检索装置包括:
特征提取模块61,用于将不同模态的训练样本数据分批次输入至与各模态分别对应的深度神经网络中,得到各训练样本数据的样本数据特征;
损失函数计算模块62,用于分别将各样本数据特征映射至共同空间中,根据同一类别的不同模态的各训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数;
模型确定模块63,用于利用损失函数调整深度神经网络的网络参数,确定出目标特征提取模型;
检索执行模块64,用于在获取到不同模态的目标数据和待检索数据后,调用目标特征提取模型进行跨模态检索操作,得出与目标数据对应的待检索数据的检索排序结果。
本发明实施例提供的多模态数据的跨模态检索装置,相较于现有技术中利用相关性排序并根据排序的结果对深度神经网络的网络参数进行调节的方式,本方法通过计算类内低秩损失约束,使得同一类别的不同模态的样本数据在共同空间中的表示尽量一致,也即,使得各处于共同空间中的样本数据具有类内低秩结构,利用类内低秩损失约束和语义一致约束计算出对应的损失函数调整深度神经网络的网络参数,使得确定出的目标特征提取模型能够提取更高质量的数据特征,从而提高多模态数据的跨模态检索的准确度。
图7为本发明实施例提供的一种多模态数据的跨模态检索设备的结构图,如图7所示,一种多模态数据的跨模态检索设备包括:
存储器71,用于存储计算机程序;
处理器72,用于执行计算机程序时实现如上述多模态数据的跨模态检索方法的步骤。
本发明实施例提供的多模态数据的跨模态检索设备,具有上述多模态数据的跨模态检索方法的有益效果。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述多模态数据的跨模态检索方法的步骤。
本发明实施例提供的计算机可读存储介质,具有上述多模态数据的跨模态检索方法的有益效果。
以上对本发明所提供的多模态数据的跨模态检索方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (5)

1.一种多模态数据的跨模态检索方法,其特征在于,包括:
将不同模态的训练样本数据分批次输入至与各模态分别对应的深度神经网络中,得到各所述训练样本数据的样本数据特征;其中,所述模态的数量大于或等于2;
分别将各所述样本数据特征映射至共同空间中,根据同一类别的不同模态的各所述训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数;
利用所述损失函数调整所述深度神经网络的网络参数,确定出目标特征提取模型;
在获取到不同模态的目标数据和待检索数据后,调用所述目标特征提取模型进行跨模态检索操作,得出与所述目标数据对应的待检索数据的检索排序结果;
所述利用所述损失函数调整所述深度神经网络的网络参数,确定出目标特征提取模型具体包括:
在每次计算出损失函数后,利用所述损失函数调整所述深度神经网络的所述网络参数,得到更新的深度神经网络;
将检测样本数据输入至所述更新的深度神经网络中,得到所述检测样本数据的检测样本数据特征;其中,所述检测样本数据包括目标样本数据和多个待检索样本数据;
计算所述目标样本数据与各所述待检索样本数据在所述共同空间的样本距离;
根据各所述样本距离计算出对应的检索准确率;
根据多次得出的所述检索准确率中的最高检索准确率确定出所述目标特征提取模型;
所述分别将各所述样本数据特征映射至共同空间中,根据同一类别的不同模态的各所述训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数具体包括:
将各所述样本数据特征按照预设批次分别映射至共同空间中,得到各批次的所述训练样本数据xm,j在所述共同空间中的共同空间表示sm,j
其中,xm,j(m=1,2,...,M;j=1,2,...,bz)表示第m个模态的第j个训练样本数据;M表示模态总数,bz为单个批次中的训练样本数据的数据量;sm,j为xm,j的共同空间表示;
利用类内低秩损失约束函数计算出单个批次中不同模态的共同空间表示的类内低秩损失约束:
其中,表示单个批次中类别为c的训练样本数据对应的共同空间表示所组成的矩阵;γ=bz/k表示单个批次中数据类别的数量,bz表示单个批次中的训练样本数据的数据量,k表示单个批次中每个数据类别对应的训练样本数据的数据量;
利用交叉熵损失函数计算出单个批次中不同模态的共同空间表示的语义一致约束:
其中,class表示类别索引;C表示总类别数;
根据所述类内低秩损失约束和所述语义一致约束计算出所述损失函数:
L'=L'CE+α'L'IL
其中,α'表示单个批次中的所述类内低秩损失约束和所述语义一致约束的平衡参数。
2.根据权利要求1所述的方法,其特征在于,所述根据多次得出的所述检索准确率中的最高检索准确率确定出所述目标特征提取模型具体为:
比较当次的检索准确率与记录的最高检索准确率的大小关系;
若所述当次的检索准确率大于所述记录的最高检索准确率,则利用所述当次的检索准确率更新所述记录的最高检索准确率;
若所述当次的检索准确率小于所述记录的最高检索准确率,则将所述记录的最高检索准确率对应的深度神经网络设置为所述目标特征提取模型。
3.一种多模态数据的跨模态检索装置,其特征在于,包括:
特征提取模块,用于将不同模态的训练样本数据分批次输入至与各模态分别对应的深度神经网络中,得到各所述训练样本数据的样本数据特征;其中,所述模态的数量大于或等于2;
损失函数计算模块,用于分别将各所述样本数据特征映射至共同空间中,根据同一类别的不同模态的各所述训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数;
模型确定模块,用于利用所述损失函数调整所述深度神经网络的网络参数,确定出目标特征提取模型;
检索执行模块,用于在获取到不同模态的目标数据和待检索数据后,调用所述目标特征提取模型进行跨模态检索操作,得出与所述目标数据对应的待检索数据的检索排序结果;
所述利用所述损失函数调整所述深度神经网络的网络参数,确定出目标特征提取模型具体包括:
在每次计算出损失函数后,利用所述损失函数调整所述深度神经网络的所述网络参数,得到更新的深度神经网络;
将检测样本数据输入至所述更新的深度神经网络中,得到所述检测样本数据的检测样本数据特征;其中,所述检测样本数据包括目标样本数据和多个待检索样本数据;
计算所述目标样本数据与各所述待检索样本数据在所述共同空间的样本距离;
根据各所述样本距离计算出对应的检索准确率;
根据多次得出的所述检索准确率中的最高检索准确率确定出所述目标特征提取模型;
所述分别将各所述样本数据特征映射至共同空间中,根据同一类别的不同模态的各所述训练样本数据的类内低秩损失约束和语义一致约束计算出对应的损失函数具体包括:
将各所述样本数据特征按照预设批次分别映射至共同空间中,得到各批次的所述训练样本数据xm,j在所述共同空间中的共同空间表示sm,j
其中,xm,j(m=1,2,...,M;j=1,2,...,bz)表示第m个模态的第j个训练样本数据;M表示模态总数,bz为单个批次中的训练样本数据的数据量;sm,j为xm,j的共同空间表示;
利用类内低秩损失约束函数计算出单个批次中不同模态的共同空间表示的类内低秩损失约束:
其中, 表示单个批次中类别为c的训练样本数据对应的共同空间表示所组成的矩阵;γ=bz/k表示单个批次中数据类别的数量,bz表示单个批次中的训练样本数据的数据量,k表示单个批次中每个数据类别对应的训练样本数据的数据量;
利用交叉熵损失函数计算出单个批次中不同模态的共同空间表示的语义一致约束:
其中,class表示类别索引;C表示总类别数;
根据所述类内低秩损失约束和所述语义一致约束计算出所述损失函数:
L'=L'CE+α'L'IL
其中,α'表示单个批次中的所述类内低秩损失约束和所述语义一致约束的平衡参数。
4.一种多模态数据的跨模态检索设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1或2所述的多模态数据的跨模态检索方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1或2所述的多模态数据的跨模态检索方法的步骤。
CN201910871966.5A 2019-09-16 2019-09-16 一种多模态数据的跨模态检索方法、装置、设备及介质 Active CN110597878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910871966.5A CN110597878B (zh) 2019-09-16 2019-09-16 一种多模态数据的跨模态检索方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910871966.5A CN110597878B (zh) 2019-09-16 2019-09-16 一种多模态数据的跨模态检索方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN110597878A CN110597878A (zh) 2019-12-20
CN110597878B true CN110597878B (zh) 2023-09-15

Family

ID=68859825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910871966.5A Active CN110597878B (zh) 2019-09-16 2019-09-16 一种多模态数据的跨模态检索方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110597878B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696636B (zh) * 2020-05-15 2023-09-22 平安科技(深圳)有限公司 一种基于深度神经网络的数据处理方法及装置
CN111914777B (zh) * 2020-08-07 2021-07-06 广东工业大学 一种跨模态识别机器人指令的方法及系统
CN111914950B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112015923A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 一种多模态数据检索方法、系统、终端及存储介质
CN112579841B (zh) * 2020-12-23 2024-01-05 深圳大学 一种多模态数据库建立方法、检索方法及系统
CN112989036A (zh) * 2021-02-05 2021-06-18 北京紫光展锐通信技术有限公司 一种文本分类的特征提取方法及装置
CN113065012B (zh) * 2021-03-17 2022-04-22 山东省人工智能研究院 一种基于多模态动态交互机制的图文解析方法
CN113449070A (zh) * 2021-05-25 2021-09-28 北京有竹居网络技术有限公司 多模态数据检索方法、装置、介质及电子设备
CN114840734B (zh) * 2022-04-29 2023-04-25 北京百度网讯科技有限公司 多模态表示模型的训练方法、跨模态检索方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN105205096A (zh) * 2015-08-18 2015-12-30 天津中科智能识别产业技术研究院有限公司 一种跨文本模态和图像模态的数据检索方法
WO2017210949A1 (zh) * 2016-06-06 2017-12-14 北京大学深圳研究生院 一种跨媒体检索方法
CN107609055A (zh) * 2017-08-25 2018-01-19 西安电子科技大学 基于深层主题模型的文本图像多模态检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN109657112A (zh) * 2018-11-29 2019-04-19 九江学院 一种基于锚点图的跨模态哈希学习方法
CN109784405A (zh) * 2019-01-16 2019-05-21 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN109770932A (zh) * 2019-02-21 2019-05-21 河北工业大学 多模态脑部神经影像特征的处理方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899253A (zh) * 2015-05-13 2015-09-09 复旦大学 面向社会图像的跨模态图像-标签相关度学习方法
CN105205096A (zh) * 2015-08-18 2015-12-30 天津中科智能识别产业技术研究院有限公司 一种跨文本模态和图像模态的数据检索方法
WO2017210949A1 (zh) * 2016-06-06 2017-12-14 北京大学深圳研究生院 一种跨媒体检索方法
CN107609055A (zh) * 2017-08-25 2018-01-19 西安电子科技大学 基于深层主题模型的文本图像多模态检索方法
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN109657112A (zh) * 2018-11-29 2019-04-19 九江学院 一种基于锚点图的跨模态哈希学习方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109784405A (zh) * 2019-01-16 2019-05-21 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN109770932A (zh) * 2019-02-21 2019-05-21 河北工业大学 多模态脑部神经影像特征的处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep Semantic Space with Intra-class Low-rank Constraint for Cross-modal Retrieval;康培培等;《International Conference on Multimedia Retrieval(ICMR)》;20190613;第226-234页 *

Also Published As

Publication number Publication date
CN110597878A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110597878B (zh) 一种多模态数据的跨模态检索方法、装置、设备及介质
JP5440394B2 (ja) 評価予測装置、評価予測方法、及びプログラム
CN110019732B (zh) 一种智能问答方法以及相关装置
CN108280477B (zh) 用于聚类图像的方法和装置
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN109978836B (zh) 基于元学习的用户个性化图像美感评价方法、系统、介质和设备
WO2020140073A1 (en) Neural architecture search through a graph search space
CN109685212B (zh) 一种机器阅读理解模型的分阶段训练方法及装置
US11544751B2 (en) Quotation method executed by computer, quotation device, electronic device and storage medium
JP2012058972A (ja) 評価予測装置、評価予測方法、及びプログラム
CN111291765A (zh) 用于确定相似图片的方法和装置
CN109471982B (zh) 一种基于用户和服务聚类QoS感知的Web服务推荐方法
US20200334557A1 (en) Chained influence scores for improving synthetic data generation
CN114556413A (zh) 用于组织分割的机器学习模型的交互式训练
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN111639247A (zh) 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质
JP2022169757A (ja) 探索装置、探索方法及び探索プログラム
CN111427925A (zh) 组卷方法、装置、设备及存储介质
CN113806579A (zh) 文本图像检索方法和装置
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN113836388B (zh) 信息推荐方法、装置、服务器及存储介质
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
CN116883740A (zh) 相似图片识别方法、装置、电子设备和存储介质
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN112650869B (zh) 图像检索重排序方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant