CN115080880B

CN115080880B - 一种基于鲁棒相似保持的跨模态检索方法及系统

Info

Publication number: CN115080880B
Application number: CN202211009200.4A
Authority: CN
Inventors: 刘兴波; 康潇; 聂秀山; 王少华; 尹义龙
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-08
Anticipated expiration: 2042-08-23
Also published as: CN115080880A

Abstract

本发明提供一种基于鲁棒相似保持的跨模态检索方法及系统，涉及跨模态检索技术领域，用于解决现有的在线跨模态监督哈希方法的容错率差、不同类样本排序关系模糊，阻碍原始样本空间相似关系的准确还原的问题。该方法通过引入哈达玛矩阵来构鲁棒新标签，并采用该标签来指导哈希码的学习，扩大了海明空间中类间距，提高了哈希学习的容错率和鲁棒性；并且为学习类间的亲疏关系，提出了为哈希码学习对应的哈希比特权重，将哈希码与哈希比特权重相结合，增强哈希空间的表征能力，从而更加准确地还原原始空间的相似关系，提高跨模态检索的准确性。

Description

一种基于鲁棒相似保持的跨模态检索方法及系统

技术领域

本发明属于跨模态检索技术领域，尤其涉及一种基于鲁棒相似保持的跨模态检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成已经成为本领域一般技术人员所公知的现有技术。

随着互联网技术的突飞猛进，大量的多媒体数据呈现井喷式的增长，例如，购物网站上每天都会出现许多新增的购物记录，社交网站上每天都会有许多新增的聊天信息。在现实场景中，多媒体信息往往是以流数据的形式不断累积出现，并且，随着时间的推移，流数据在不同批次之间可能发生样本分布变化，概念漂移，类别增长等形式的变化。该场景在日常的检索应用中十分常见，例如，百科网站每天都会有数以千万计的用户上传图像、视频、文本等信息进入互联网的检索库，这些信息的表现形式的是多种多样的，每日上传的信息分布也会受到当日热点等因素的影响。

近年来，以哈希为代表的近似邻检索技术得到了深入的研究和飞速的进步，成为解决大规模跨模态检索的一种可行方案。哈希学习致力于习得某种映射关系将高维样本特征转化为紧凑的二值码，同时保证生成的二值码可以保持原始样本空间的相似关系。已有的哈希学习方法可以粗略划分为监督哈希和无监督哈希，无监督模型的训练依赖于样本的特征分布，当流数据不同数据块之间的分布发生变化时，模型也会随之变化，从而造成模型不稳定难以收敛等问题。与无监督哈希相比，监督哈希方法加入了标签信息（或成对相似矩阵）作为指导，通常可以获得更优的检索性能。从空间变换的角度来看，哈希学习的目的是学习一个低维的二值空间使样本在新空间中仍能保持原始空间的相似关系，从而保证检索的高效，准确进行。而监督方法中的标签信息则为哈希码的生成提供了一个可靠的锚点，即使分布信息在不同数据块之间发生了轻微的变化，在一致性标签指导下生成的哈希码也不会产生重大偏移。

然而现有的在线跨模态监督哈希方法通常存在以下问题：1）独热码标签的类间距离小，导致哈希码的类间距小，区分能力和容错率较差，当数据流特征发生轻微变化时，近邻检索过程中容易返回其他类样本数据；2）独热码标签无法表征类间亲疏关系，不同类样本排序关系模糊，阻碍了原始样本空间相似关系的准确还原。

发明内容

为了解决上述问题，本发明提供一种基于鲁棒相似保持的跨模态检索方法及系统，用于提高哈希学习的容错率和鲁棒性，并准确地还原原始空间的相似关系，提高跨模态检索的准确性。

为了实现上述目的，本发明主要包括以下几个方面：

第一方面，本发明实施例提供一种基于鲁棒相似保持的跨模态检索方法，包括：

将获取的训练集进行均等分组，生成多模态流数据，每组多模态流数据包括至少两种不同模态的样本特征及其对应的独热码标签；

构造哈达玛矩阵，将多模态流数据中相同类别的独热码标签替换为所述哈达玛矩阵中的相同行，得到各样本特征对应的鲁棒新标签；

使用所述鲁棒新标签指导哈希码的生成，并在哈希码学习过程中，为生成的哈希码学习对应的哈希比特权重，以及不同模态对应的哈希映射；所述哈希比特权重用于表征该哈希码的各比特位在样本特征表示中的重要程度；

接收查询样本，利用学习到的哈希映射得到对应的哈希码，将所述查询样本的哈希码与检索库中的哈希码进行异或运算，得到对应的二值标识，将所述二值标识与所述哈希比特权重相结合，计算加权海明距离，并根据加权海明距离返回检索结果。

在一种可能的实施方式中，通过以下方式生成哈达玛矩阵

：

；

其中，i为哈达玛矩阵的行，j为哈达玛矩阵的列。

在一种可能的实施方式中，哈达玛矩阵的行数不小于所述多模态流数据中各样本的类别数。

在一种可能的实施方式中，在哈希码学习过程中，将多模态流数据中的训练样本划分轮次；从第一轮次开始，对每个轮次训练样本依次进行哈希码学习，得到不同模态对应的哈希映射和哈希比特权重。

在一种可能的实施方式中，针对第t轮训练样本，根据t时刻下不同模态的样本特征和t时刻下的鲁棒新标签构造目标函数，并引入过渡标签，为所述过渡标签加入正交约束；通过最小化目标函数，得到不同模态对应的哈希映射、哈希比特权重和第t轮训练样本的哈希码。

在一种可能的实施方式中，所述目标函数F^（t）表示为：

；

其中，

表示t时刻下不同模态的样本特征，

表示t时刻下的鲁棒新标签，

表示t时刻下的过渡标签矩阵，P表示特征映射，

表示不同模态对应的哈希映射，

表示t时刻下的哈希码，

为比特权重矩阵，S ^(t-1)表示新旧数据之间的成对相似关系矩阵，S ^(t)表示新数据内部的成对相似矩阵，上标为（t-1）表示t时刻以前对应的数据，

，

和

为超参数，

表示矩阵的2范数，上标T表示矩阵的转置，r表示哈希码的长度，n_t表示样本的数量，V表示过渡标签矩阵，I表示单位矩阵，V1表示过渡标签矩阵V与全1向量相乘得到的矩阵。

在一种可能的实施方式中，接收查询样本，通过以下方式生成对应的哈希码：

；

其中，b(x_m)为查询样本对应的哈希码，

为t时刻下的哈希映射，x_m为查询样本。

在一种可能的实施方式中，所述根据加权海明距离返回检索结果，包括：将加权海明距离按照从小到大的顺序进行排列，返回检索库中预设数量的排列靠前的近邻样本。

第二方面，本发明实施例提供一种基于鲁棒相似保持的跨模态检索系统，包括：

数据生成模块，用于将获取的训练集进行均等分组，生成多模态流数据，每组多模态流数据包括至少两种不同模态的样本特征及其对应的独热码标签；

新标签获取模块，用于构造哈达玛矩阵，将多模态流数据中相同类别的独热码标签替换为所述哈达玛矩阵中的相同行，得到各样本特征对应的鲁棒新标签；

哈希码学习模块，用于使用所述鲁棒新标签指导哈希码的生成，并在哈希码学习过程中，为生成的哈希码学习对应的哈希比特权重，以及不同模态对应的哈希映射；所述哈希比特权重用于表征该哈希码的各比特位在样本特征表示中的重要程度；

查询模块，用于接收查询样本，利用学习到的哈希映射得到对应的哈希码，将所述查询样本的哈希码与检索库中的哈希码进行异或运算，得到对应的二值标识，将所述二值标识与所述哈希比特权重相结合，计算加权海明距离，并根据加权海明距离返回检索结果。

在一种可能的实施方式中，所述哈希码学习模块具体用于：在哈希码学习过程中，将多模态流数据中的训练样本划分轮次；从第一轮次开始，对每个轮次训练样本依次进行哈希码学习，得到不同模态对应的哈希映射和哈希比特权重。

以上一个或多个技术方案存在以下有益效果：

本发明通过引入哈达玛矩阵来构鲁棒新标签，并采用该标签来指导哈希码的学习，扩大了海明空间中类间距，提高了哈希学习的容错率和鲁棒性；为了进一步学习类间的亲疏关系，提出学习哈希比特权重，将哈希码与哈希比特权重信息结合，增强哈希空间的表征能力，从而更加准确地还原原始空间的相似关系，提高跨模态检索的准确性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一中基于鲁棒相似保持的跨模态检索方法的流程示意图；

图2是本发明实施例一中基于鲁棒相似保持的跨模态检索方法的框架图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于鲁棒相似保持的跨模态检索方法，如图1所示，包括以下步骤：

S101：将获取的训练集进行均等分组，生成多模态流数据，每组多模态流数据包括至少两种不同模态的样本特征及其对应的独热码标签。

在具体实施中，获取的训练集包括文本和图像，对训练集进行均等分组，生成用以训练的多模态流数据，训练过程中以此作为不同时刻的输入，记作

，独热码标签为

，其中，t=1,2,...T表示不同时刻。

S102：构造哈达玛矩阵，将多模态流数据中相同类别的独热码标签替换为所述哈达玛矩阵中的相同行，得到各样本特征对应的鲁棒新标签。

在具体实施中，为了将S101中的独热码标签转化为正交独立的鲁棒新标签，本实施例给出鲁棒新标签的生成方式，引入哈达玛矩阵，将多模态流数据中相同类别的独热码标签替换为所述哈达玛矩阵中的相同行，得到各样本特征对应的鲁棒新标签。

哈达玛矩阵天然具有正交独立性，下面给出哈达玛矩阵

的生成方式：

；

其中，i为哈达玛矩阵的行，j为哈达玛矩阵的列。

由于矩阵

满足正交独立性，即，该矩阵的行之间两两正交。因此，利用该矩阵的行取代原有独热码标签作为样本的鲁棒新标签，同类样本将被分配相同的行。此时，1）鲁棒新标签很好地满足了对于标签矩阵独立性的要求； 2）以包含4个类别的单标签数据集为例，其独热码标签通常设置为[1000]、[0100]、[0010]和[0001]，可见，两个不同类别的样本，独热码标签下的海明距离为2，然而，对于所学习的鲁邦新标签，其两个类标签之间两两正交，因此，其类间的海明距离为r/2，其中，r为哈希码的长度，这样，可以提高标签的类间距离，从而有利于提高哈希码的类间距，提升哈希学习的容错率，也即，即使部分哈希比特出错，查询样本的近邻样本仍不会误检为其他类。

值得注意的是，受限于矩阵H的行与样本类别的一一对应，哈达玛矩阵的行数不小于多模态流数据中各样本的类别数。这里，类别数是指数据集中所包含的样本类别个数，类别数通常由数据集的原始独热码标签的长度给出，即原始独热码标签 L的规模为C*n，其中C为类别数，n为样本个数。

S103：使用所述鲁棒新标签指导哈希码的生成，并在哈希码学习过程中，为生成的哈希码学习对应的哈希比特权重，以及不同模态对应的哈希映射；所述哈希比特权重用于表征该哈希码的各比特位在样本特征表示中的重要程度；

在具体实施中，在哈希码学习过程中，将多模态流数据中的训练样本划分轮次，在第t轮训练时，样本可分为前t-1次训练样本和第t次训练样本。从第一轮次开始，对每个轮次训练样本依次进行哈希码学习，得到不同模态对应的哈希映射和哈希比特权重。

利用S102中生成的鲁棒新标签指导哈希码的生成。具体地，采用标签嵌入框架和成对相似度保持框架使标签信息可以充分嵌入到海明空间。进一步地，为了避免标签嵌入时随机映射P对哈希码正交性质的破坏，引入过渡标签V，并为其加入正交约束。V作为沟通鲁棒新标签Y与哈希码B的桥梁，既能保持正交独立，又能与哈希码的规模保持一致综上，可以更好地指导生成类间区分能力强的哈希码。此外，独热码标签无法反映类别间的亲疏关系，为了解决这一问题，提出学习哈希比特权重。具体地，在训练过程中为每一个哈希比特学习一个权重值，该权重用于表征该比特位在样本特征表示中的重要性。

作为一可选实施方式，针对第t轮训练样本，根据t时刻下不同模态的样本特征和t时刻下的鲁棒新标签构造目标函数，并引入过渡标签，为所述过渡标签加入正交约束；通过最小化目标函数，得到不同模态对应的哈希映射、哈希比特权重和第t轮训练样本的哈希码。所述目标函数F^（t）表示为：

；

其中，

表示t时刻下不同模态的样本特征，

表示t时刻下的鲁棒新标签，

表示t时刻下的过渡标签矩阵，P表示特征映射，

表示不同模态对应的哈希映射，

表示t时刻下的哈希码，

，

和

为超参数，

表示矩阵的2范数，上标T表示矩阵的转置，r表示哈希码的长度，n_t表示样本的数量，V表示过渡标签矩阵，I表示单位矩阵，V1表示过渡标签矩阵V与全1向量相乘得到的矩阵。优选地，取

=0.01，

=10，

=10和

=0.5时，其检索性能最好，可保证文本检索图像的平均精度达到75%以上，图像检索文本的精度达到80%以上。

通过最小化目标函数，得到不同模态对应的哈希映射、哈希比特权重和第t轮训练样本的哈希码。

S104：接收查询样本，利用学习到的哈希映射得到对应的哈希码，将所述查询样本的哈希码与检索库中的哈希码进行异或运算，得到对应的二值标识，将所述二值标识与所述哈希比特权重相结合，计算加权海明距离，并根据加权海明距离返回检索结果。

在具体实施中，如图2所示，接收查询样本x_m，根据S103中学习到的哈希映射为查询样本 x_m生成哈希码，其表示如下：

；

其中，b(x_m)为查询样本对应的哈希码，

为t时刻下的哈希映射，x_m为查询样本。

将S103中训练得到的哈希比特权重与所生成的哈希码相结合，以更加准确的找到查询样本在原始空间的邻近样本。具体地，将该哈希码与检索库中的哈希码进行对比，可通过0/1异或运算快速的计算出查询样本和检索库中另一模态样本的逐比特相似关系（通过二值码表示），然后使用比特权重矩阵

为该二值码加权，得到查询样本与检索库样本的加权海明距离；将加权海明距离按照从大到小的顺序进行排列，返回检索库中预设数量的排列靠前的近邻样本，加权海明距离越小代表两个样本越相似。

表1为本实施例在检索出所有样本时的平均精度均值，分割线以上为文本检索图像，分割线以下为图像检索文本，每个仿真实验中都测试了4种哈希码位数（8，16，32，64位）的性能表现，并与现有的8种方法：离散交叉模态散列法（Discrete Cross-ModalHashing，DCH）,快速离散交叉模态散列法（Fast Discrete Cross-Modal Hashing，FDCH），可扩展的离散矩阵分解散列法（Scalable disCRete mATrix faCtorization Hashing，SCRATCH）, 在线跨模态哈希算法（Online Cross-Modal Hashing，OCMH）,在线集体矩阵分解散列法（Online Collective Matrix Factorization Hashing，OCMFH）,在线潜在语义散列法（Online Latent Semantic Hashing，OLSH）,标签嵌入在线散列法（Label EmbeddingOnline Hashing，LEMON）,离散联机跨模态散列（Discrete Online Cross-Modal Hashing，DOCH）进行了比较，均可以看出本实施例所提出的方法性能较好。其中，平均精度均值（meanAverage Precision，mAP）的定义如下：

；

其中，mAP表示平均精度均值，M’表示检索集样本个数，AP_i表示查询样本i的平均精度。对于查询样本i，该查询样本的平均精度

，R表示该查询样本的近邻个数，n表示验证集中样本个数，Pr(r)表示前r个样本的精度，若样本为近邻样本，则

(r)=1，否则，

(r)=0。

表1 平均精度均值统计表

实施例二

本发明实施例还提供一种基于鲁棒相似保持的跨模态检索系统，包括：

作为一可选实施方式，所述哈希码学习模块具体用于：在哈希码学习过程中，将多模态流数据中的训练样本划分轮次；从第一轮次开始，对每个轮次训练样本依次进行哈希码学习，得到不同模态对应的哈希映射和哈希比特权重。

本实施例提供的基于鲁棒相似保持的跨模态检索系统用于实现前述的基于鲁棒相似保持的跨模态检索方法，因此基于鲁棒相似保持的跨模态检索系统中的具体实施方式可见前文中的基于鲁棒相似保持的跨模态检索方法的实施例部分，在此不再进行赘述。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。