CN112836068B

CN112836068B - 一种基于带噪标签学习的无监督跨模态哈希检索方法

Info

Publication number: CN112836068B
Application number: CN202110312838.4A
Authority: CN
Inventors: 詹德川; 杭诚; 王魏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2023-09-26
Anticipated expiration: 2041-03-24
Also published as: CN112836068A

Abstract

本发明公开了一种基于带噪标签学习的无监督跨模态哈希检索方法，包括多模态数据采集步骤、对偶多模态神经网络搭建步骤、基于预训练神经网络提取带噪声的相似度伪标签、基于带噪声标签学习的无监督跨模态哈希训练步骤和最终的对偶跨模态哈希检索的测试步骤。本发明可以通过设置两个对偶哈希模型组，相互喂给对方相对来说比较干净的伪标签，从而使得模型的学习尽可能少的受到噪声伪标签的误导，最终效果是模型收敛到一个更好的位置，在测试数据集上表现要比别的无监督跨模态哈希方法要好。

Description

一种基于带噪标签学习的无监督跨模态哈希检索方法

技术领域

本发明涉及一种基于带噪标签学习的无监督跨模态哈希检索方法，用于带文字描述的图片哈希检索。

背景技术

一般的跨模态哈希检索任务是通过一组网络来实现的，包含了图片网络和文本网络。在有监督标签的情况下，每个图片/文本都被赋有多个标签，如果一个图片和一个文本的各自标签中至少有一个共同的标签，则称之为相似的标签，反之则称之为不相似。在训练这组网络的过程中，每次采样一个批次的“图片-文本”对，经过网络处理之后得到其特征表示，在基于特征表示计算相似度，并计算与真实相似度的误差函数。误差函数后向传播，使得网络权重向我们所希望的方向更新，直到网络参数大致收敛为止。

但是，在我们所面临的无监督跨模态哈希检索任务中，没有一个图片/文本是被赋予语义标签的，所以无法得到真实的相似/不相似的语义标签。当前来看，表现最好的方法是这样做的，首先用预训练的卷积网络去提取图片的特征，用词袋模型去提取文本的特征，然后对两个“图片-文本”对而言，分别计算其图片和文本的余弦相似度，并做加权平均得到其最终的相似度伪标签。然后施行和有监督方法几乎是一样的训练过程。

虽然说上述的方法取得了目前来看最好的效果，但是其缺点却也是很明显，因为训练是基于在预训练特征和词包模型上得到的余弦相似度作为伪标签，而这样的伪标签未必就是准确的，经过与真实标签的比较，噪声标签占比还相当高。

发明内容

发明目的：针对之前的方法一般通过使用预训练网络提取的图片特征和词包模型的文本特征计算余弦相似度作为伪标签直接去拟合，得到的伪标签包含非常之多噪声的问题，本发明提供一种基于带噪标签学习的无监督跨模态哈希检索方法，在本发明中，独创性地使用带噪声标签学习的思想，设置对偶的两组哈希模型，分别利用“小误差准则”去挑选每个小批次当中相对比较干净可信的相似性标签，喂给对方神经网络，去做训练，实践证明确实能有效提高模型泛化性能。现有技术中存在的问题与不足，。

技术方案：一种基于带噪标签学习的无监督跨模态哈希检索方法，利用带噪标签学习的方法，设计了对偶的多模态网络，在训练过程中两个互为对偶的网络组基于小损失准则，彼此为对方挑选损失函数值较小的样本对，这些样本对被认为是比较干净的，然后另一个网络使用这些被选出的样本对进行前向传播与反向传播，以更新自身参数。详细来说，具体包括无监督多模态数据采集步骤、对偶多模态神经网络搭建步骤、基于预训练神经网络提取带噪声的相似度伪标签、基于带噪声标签学习的无监督跨模态哈希训练步骤和最终的对偶跨模态哈希检索的测试步骤。

所述无监督多模态数据采集步骤具体为，采集图片文本数据，将数据组织成若干“（图片，文本）”对的形式，其中文本是对图片的描述；不同于有监督的跨模态哈希检索，整个数据中没有对数据示例精确的人工标注。

然后搭建对偶多模态神经网络，一共包含两组对偶的神经网络模型，每组模型包含两个网络，两个网络分别处理图片模态和文本模态；跨模态哈希检索任务，包含的是两个模态，即图片和文本，跨模态指的是使用某一个模态去查询检索语义相关的另一个模态的样本，哈希指的是把两个模态的样本全都映射在二值的汉明空间中，通过计算汉明距离来对样本进行排序，距离较小的样本即被模型认为是语义相关的。跨模态哈希检索的优点是能极大的加快检索的速度，也便于减少所需要的存储空间；不过也带来了一些挑战，比如需要将多个模态的数据映射到相同的语义空间，以及哈希码本身的离散属性导致的不可微分。

所述对偶多模态神经网络搭建步骤具体为：

步骤200，搭建图片网络一，包含卷积网络特征提取模块和哈希层；

步骤201，搭建文本网络一，包含全连接网络特征提取模块和哈希层；

步骤202，将图片网络一和文本网络一聚合成为哈希检索模型一；

步骤203，搭建图片网络二，包含卷积网络特征提取模块和哈希层；

步骤204，搭建文本网络二，包含全连接网络特征提取模块和哈希层；

步骤205，将图片网络二和文本网络二聚合成为哈希检索模型二。

在训练开始前，使用预训练的神经网络对图片模特提取特征并计算余弦相似度，对文本模特来说在词包表示的基础上计算余弦相似度，并把两者加权平均得到相似度伪标签。

所述基于预训练神经网络提取带噪声的相似度伪标签具体为：

步骤300，准备两对“（图片，文本）”对；

步骤301，准备一个预训练好的卷积神经网络；

步骤302，通过预训练的卷积神经网络对图片提取向量型特征；

步骤303，通过词包模型对文本提取向量型特征；

步骤304，计算两张图片的向量特征的余弦相似度；

步骤305，计算两段文本的向量特征的余弦相似度；

步骤306，将两个模态的余弦相似度加权平均；

步骤307，对所有的“（图片，文本）”样本对，重复300-306，计算每两对“图片-文本”对的相似度伪标签。

在训练过程中，就每个批次而言，根据带噪声学习中的小损失准则，对偶的神经网络组互相为对方挑选伪标签可信度较大的样本，并执行前向传播和后向传播进行训练。

所述基于带噪声标签学习的无监督跨模态哈希训练步骤具体为：

步骤400，从训练数据中采样一个批次的“（图片，文本）”对，以及该批次中任意两对样本对的相似度伪标签；

步骤401，运用哈希模型一对接收到的“（图片，文本）”对进行处理，得到其特征表示；

步骤402，在特征表示之上计算余弦相似度，并与伪标签计算均方误差；

步骤403，哈希模型一选择均方误差相对较小的一部分“（图片，文本）”对送给哈希模型二；

步骤404，运用哈希模型二对接收到的 “（图片，文本）”对进行处理，得到其特征表示；

步骤405，在特征表示之上计算余弦相似度，并与伪标签计算均方误差；

步骤406，哈希模型二选择均方误差相对较小的一部分“（图片，文本）”对送给哈希模型一；

步骤407，哈希模型一和哈希模型二分别利用对方选择的误差较小的模态对进行反向传播，更新自身网络参数。

步骤408，重复步骤400-407，直至达到预先设定的最大迭代轮数。

最后展示基于对偶多模态哈希网络在新数据上进行哈希检索的具体过程。

所述对偶跨模态哈希检索的测试步骤具体为（跨模态检索是指以图搜文或者以文搜图，这里用以图搜文作为例子，以文搜图类似）：

步骤500，准备当前的查询图片（做检索的时候的查询图片）和所有待检索排序的文本样本；

步骤501，分别通过哈希模型一和哈希模型二计算查询图片和所有待检索文本的相似性分数并直接取平均，得到查询图片和所有待检索文本的最终相似性分数；

步骤502，根据待检索文本的相似性从高到低排序。

有益效果：与现有技术相比，本发明提供基于带噪标签学习的无监督跨模态哈希检索方法，本发明可以通过设置两个对偶哈希模型组，相互喂给对方相对来说比较干净的伪标签，从而使得模型的学习尽可能少的受到噪声伪标签的误导，最终效果是模型收敛到一个更好的位置，在测试数据集上表现要比别的无监督跨模态哈希方法要好。

附图说明

图1为本发明实施例的多模态数据采集流程图；

图2为本发明实施例的对偶多模态神经网络搭建流程图；

图3为本发明实施例的提取带噪声的相似度伪标签流程图；

图4为本发明实施例的基于带噪标签学习的无监督跨模态哈希训练流程图；

图5为本发明实施例的对偶跨模态哈希检索的测试流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

下面的实施例以社交媒体网络上图文无监督检索为具体例子进行阐述本发明方法。

如图1所示，多模态数据采集步骤依次为：确定文本标签是否为对应图片的具体描述（步骤100），然后将所有图片和每个图片对应的文本描述组织成“图片-文本”对的形式（步骤101）。

如图2所示，对偶多模态神经网络搭建步骤依次为：就哈希检索模型一而言，首先搭建图片网络（步骤200），包含一个卷积神经网络作为特征提取模块，记作h_i=H(I_i,W_cnn)，其中I_i代表第i张图片，而W_cnn代表卷积神经网络的参数，h_i代表最后的特征表示输出，维度为d，而哈希层就是一个tanh函数，用来把处于实值空间的h_i压缩到[-1,1]的范围内，从而利于减少与哈希二值表示的误差，同时tanh函数又不丧失可微分性质；其次搭建哈希检索模型一里面的文本网络（步骤201），包含一个全连接网络用于特征提取，记作g_i=G(T_i,W_ffn)，其中T_i代表第i张图片所对应的文本描述，W_ffn代表全连接网络的参数，而输出端结果特征表示记为g_i，维度为d，而哈希层就是一个tanh函数，用来把处于实值空间的g_i压缩到[-1,1]的范围内；然后把图片网络和文本网络聚合为哈希检索模型一（步骤202）；对于对偶的哈希检索模型二，其搭建过程也是做同样的操作（步骤203，204，205）。

如图3所示，基于预训练神经网络提取带噪声的相似度伪标签步骤依次为：准备两个“（图片-文本）”对，记作[I_0,T_0]和[I_1,T_1]（步骤300）；再准备一个在ImageNet上预训练好的VGG网络参数（步骤301）；通过VGG对图片I_0和I_1提取向量型特征并记作FI_0与FI_1（步骤302）；通过词包模型确定文本T_0与T_1的向量型特征表示FT_0与FT_1（步骤303）；计算两张图片向量化表示的余弦相似度sim_I=cosine(FI_0,FI_1)（步骤304）；计算两段文本的向量化特征的余弦相似度sim_T=cosine(FT_0,FT_1)（步骤305）；将两个模态的余弦相似度加权平均sim=lambda*sim_I+lambda*sim_T(0<lambda<1)（步骤306）；对所有的样本对，重复300-306，计算每两对“图片-文本”对的相似度伪标签（步骤307）。

如图4所示，基于带噪声标签学习的无监督跨模态哈希训练步骤具体为：从训练数据中采样一个批次的“（图片，文本）”对，以及该批次中任意两对样本对的相似度伪标签（步骤400）；运用哈希模型一对该批次的样本对进行处理，得到其特征表示（步骤401）；在特征表示之上计算余弦相似度，并与伪标签计算均方误差（步骤402）；哈希模型一选择均方误差相对较小的一部分对送给哈希模型二（步骤403）；哈希模型二按照相同的方式处理特征，计算余弦相似度并选择与伪标签均方误差相对较小的一部分对送给哈希模型一（步骤404，405，406）；哈希模型一和哈希模型二分别利用对方选择的误差较小的模态对进行反向传播，更新自身网络参数（步骤407）。重复步骤400-407，直至哈希模型一和哈希模型二都接近收敛（步骤408）。

如图5所示，所述对偶跨模态哈希检索的测试步骤具体为：准备当前的查询样本qI和所有待检索排序n个的样本{dT_1,dT_2,…,dT_n}（步骤500）；分别通过两个对偶模型计算查询样本和所有待检索样本的相似性分数ham_list0和ham_list1，各自包含了qI与n个待检索样本的汉明距离，然后两个list直接取平均，得到查询样本和所有待检索样本的最终哈希距离{dis_0,dis_1,…,dis_n}（步骤501）；根据待检索样本的哈希汉明距离从近到远排序（步骤502）。

本发明适用于没有人工标注的跨模态哈希检索任务，使用对偶的神经网络组进行训练和预测。

Claims

1.一种基于带噪标签学习的无监督跨模态哈希检索方法，其特征在于，包括无监督多模态数据采集步骤、对偶多模态神经网络搭建步骤、基于预训练神经网络提取带噪声的相似度伪标签步骤、基于带噪声标签学习的无监督跨模态哈希训练步骤和最终的对偶跨模态哈希检索的测试步骤；所述无监督多模态数据采集步骤具体为，采集图片文本数据，将数据组织成若干“（图片，文本）”对的形式，其中文本是对图片的描述；对偶多模态神经网络搭建步骤中，一共包含两组对偶的神经网络模型，每组模型包含两个网络，两个网络分别处理图片模态和文本模态；基于预训练神经网络提取带噪声的相似度伪标签步骤中，使用预训练的神经网络对图片模态提取特征并计算余弦相似度，对文本模态来说在词包表示的基础上计算余弦相似度，并把两者加权平均得到相似度伪标签；基于带噪声标签学习的无监督跨模态哈希训练步骤中，就每个批次而言，根据带噪声学习中的小损失准则，对偶的神经网络组互相为对方挑选伪标签可信度较大的样本，并执行前向传播和后向传播进行训练；对偶跨模态哈希检索的测试步骤展示基于对偶多模态哈希网络在新数据上进行哈希检索的具体过程。

2.根据权利要求1所述的基于带噪标签学习的无监督跨模态哈希检索方法，其特征在于，所述对偶多模态神经网络搭建步骤具体为：

3.根据权利要求1所述的基于带噪标签学习的无监督跨模态哈希检索方法，其特征在于，所述基于预训练神经网络提取带噪声的相似度伪标签具体为：

步骤300，准备两对“（图片，文本）”对；

步骤301，准备一个预训练好的卷积神经网络；

步骤303，通过词包模型对文本提取向量型特征；

步骤304，计算两张图片的向量特征的余弦相似度；

步骤305，计算两段文本的向量特征的余弦相似度；

步骤306，将两个模态的余弦相似度加权平均；

4.根据权利要求1所述的基于带噪标签学习的无监督跨模态哈希检索方法，其特征在于，所述基于带噪声标签学习的无监督跨模态哈希训练步骤具体为：

步骤401，运用哈希模型一对该批次的样本对进行处理，得到其特征表示；

步骤407，哈希模型一和哈希模型二分别利用对方选择的误差较小的模态对进行反向传播，更新自身网络参数；

步骤408，重复步骤400-407，直至哈希模型一和哈希模型二都接近收敛。

5.根据权利要求1所述的基于带噪标签学习的无监督跨模态哈希检索方法，其特征在于，所述对偶跨模态哈希检索的测试步骤具体为：

步骤500，准备当前的查询样本和所有待检索排序的样本；

步骤501，分别通过两个对偶模型计算查询样本和所有待检索样本的相似性分数并直接取平均，得到查询样本和所有待检索样本的最终相似性分数；

步骤502，根据待检索样本的相似性从高到低排序。