CN116975318B

CN116975318B - 一种基于互关联挖掘的半配对图文检索方法

Info

Publication number: CN116975318B
Application number: CN202310975399.4A
Authority: CN
Inventors: 胡鹏; 陆铮; 秦阳; 彭德中; 彭玺
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2024-01-23
Anticipated expiration: 2043-08-03
Also published as: CN116975318A

Abstract

本发明公开了一种基于互关联挖掘的半配对图文检索方法，本发明解决现有图文检索方法对于大规模图文数据的依赖，通过挖掘大量不配对图文数据间潜在的关联信息丰富了跨模态学习，提高了图文检索模型在受限环境下的性能，进而提升其应用能力。

Description

一种基于互关联挖掘的半配对图文检索方法

技术领域

本发明属于跨模态检索领域，具体涉及一种基于互关联挖掘的半配对图文检索方法。

背景技术

图文检索旨在给定一个图像或者文本查询样本来检索另一模态数据中最相关的样本。其核心在于度量图文样本间相似度作为检索证据。现有图文检索可分为两类，一类是全局水平方法，这类方法通过将图像和文本样本编码成全局特征，并将其映射到一个公共子空间进行视觉嵌入学习，其余弦相似度或者欧氏距离直接可被认为是视觉语义相似度。另一类是局部水平方法，这类方法旨在挖掘图文样本间细粒度的关系，例如单词与图像中的对象，区域之间的局部关系，进而推理出视觉文本相关性。然而，在实际场景下或者数据受限场景下，大规模高质量的图文数据集收集成本较高，这限制了现有方法的应用潜力。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于互关联挖掘的半配对图文检索方法解决了现有图文检索方法对于大规模图文数据依赖的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于互关联挖掘的半配对图文检索方法，包括以下步骤：

S1、获取配对图文集与不配对图文数据集，得到半配对图文检索训练数据集，构建基于图像和文本的深度神经网络编码器并初始化其网络参数；

S2、从半配对图文检索训练数据集中采样小批次数据，根据图像和文本的深度神经网络编码器得到小批次数据的全局特征，根据全局特征计算视觉语义相似度；

S3、根据视觉语义相似度计算第一半配对学习损失，并根据第一半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数；

S4、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛；若是，则得到初步收敛的基于图像和文本的深度神经网络编码器，并进入S5，若否，则返回S2；

S5、通过初步收敛的基于图像和文本的深度神经网络编码器得到不配对图文数据集中的伪配对样本；

S6、根据伪配对样本计算第二半配对学习损失，并根据第二半配对学习损失优化基于图像和文本的深度神经网络编码器的网络参数；

S7、判断优化网络参数后的基于图像和文本的深度神经网络编码器是否收敛；若是，则得到最优的基于图像和文本的深度神经网络编码器，并进入S8，若否，则返回S5；

S8、通过最优的基于图像和文本的深度神经网络编码器，计算图像的查询样本与所有检索样本间的视觉语义相似度，进而获得检索结果，完成图文检索。

进一步地：所述S1中，所述配对图文集与不配对图文数据集均包括若干组图文对，其中，任一组图文对设置有一幅图像与一个文本。

进一步地：所述S1中，基于图像和文本的深度神经网络编码器包括图像编码器和文本编码器，图像编码器用于得到图像的全局特征，文本编码器用于得到文本的全局特征。

进一步地：所述S2中，计算一组图文对中图像I与文本T的视觉语义相似度S(I，T)的表达式具体为：

式中，f(·)为图像编码器，g(·)为文本编码器，f(I)为图像I的全局特征，g(T)为文本T的全局特征，图像I和文本T均属于小批次数据，f(I)^T表示转置的图像I的全局特征。

进一步地：所述S3中，计算第一半配对学习损失Linter(I_k，T_k，1)的表达式具体为：

式中，[*]₊为铰链三元组通式，其原理为：[x]₊≡max(x，0)，max(·)表示最大值通式，α为边际参数，V为视图数目，为图像I_k的第i个视图，T_k ^(j)为文本T_k的第j个视图，/>为最难负样本的图像的第i个视图，/>为最难负样本的文本的第j个视图，S′(*，*)为操作定位通式，其原理具体为：若S′(I₁，T₁)中图像I₁和文本T₁属于配对图文集中的一组图文对，则S′(I₁，T₁)＝S(I₁，T₁)，否则S′(I₁，T₁)＝βS(I₁，T₁)，β∈(0，1]，β为放缩参数。

进一步地：所述S5中，得到伪配对样本的方法包括挖掘伪配对文本法与挖掘伪配对图像法；

其中，所述挖掘伪配对文本法具体为：根据不配对图文数据集中的图像通过视觉语义相似度计算得到伪配对文本；

所述挖掘伪配对图像法具体为：根据不配对图文数据集中的文本通过视觉语义相似度计算得到伪配对图像。

进一步地：得到所述伪配对文本T′_n的表达式具体为：

式中，argmax(*)为用于计算目标函数的最小值的函数，D_u为不配对图文数据集，S(I_n，T_m)为图像I_n与文本T_m的视觉语义相似度，图像I_n属于不配对图文数据集；

得到伪配对图像I′_n的表达式具体为：

式中，S(I_m，T_n)为图像I_m与文本T_n的视觉语义相似度，文本T_n属于不配对图文数据集。

上述进一步方案的有益效果为：通过利用视觉语义相似度来寻找最相似的跨模态样本组成伪配对图文对，这将给跨模态学习提供更多潜在的视觉语义关联，进而提升性能。

进一步地：所述S6中，计算第二半配对学习损失Loverall的表达式具体为：

式中，y_i为配对的标签，用于表示是否图文配对，若图像I_k和文本T_k属于配对图文，则y_i取值为1，若图像I_k和文本T_k不属于配对图文，则y_i取值为0，Linter(I_k，T_k，0)为不配对数据的视觉语义挖掘损失，K为小批次数据大小，(I_k，T_k)为第i对图文对；

其中，计算不配对数据的视觉语义挖掘损失Linter(I_k，T_k，0)的表达式具体为：

Linter(I_k，T_k，0)＝L_a(I_k)+L_b(T_k)

式中，L_a(I_k)为第一挖掘损失，L_b(T_k)为第二挖掘损失；

计算第一挖掘损失L_a(I_k)的表达式具体为：

式中，α为边际参数，γ为相似度阈值，γ用于过滤潜在的噪声图文对，V为视图数目，且V＝2，为选择函数，若/>则/>为1，否则为0，/>为图像I_k的第j个视图/>与图像I_k的伪配对文本T′_k的视觉语义相似度，/>为图像I_k的第j个视图/>与其最难负样本的文本/>的视觉语义相似度，/>为图像I_k的伪配对文本T′_k与其最难负样本的图像/>的第j个视图/>的视觉语义相似度；

计算第二挖掘损失L_b(T_k)的表达式具体为：

式中，为文本T_k的第j个视图/>与文本T_k的伪配对图像I′_k的视觉语义相似度，/>为文本T_k的第j个视图/>与其最难负样本的图像/>的视觉语义相似度，/>为文本T_k的伪配对图像I′_k与其最难负样本的文本/>的第j个视图/>的视觉语义相似度。

上述进一步方案的有益效果为：通过利用配对数据训练的初步收敛的基于图像和文本的深度神经网络编码器来逐步从未配对数据中挖掘潜在可用的伪配对数据来进一步丰富视觉语义信息，这将从大规模未配对的图文数据集上进行跨模态学习提供可能。

进一步地：所述S7中，得到优化后的基于图像和文本的深度神经网络编码器的网络参数的表达式具体为：

式中，Θ为编码器的参数，AdamOptimizer为反向梯度优化器。

进一步地：所述S8具体为：

获取图像的查询样本，通过最优的基于图像和文本的深度神经网络编码器计算图像的查询样本与所有检索样本之间的视觉语义相似度，根据相似度进行升序排序，将排名第一的检索样本作为最相关的检索结果，设置排名阈值，将排名序号小于排名阈值的检索样本作为候选检索项，完成图文检索。

本发明的有益效果为：本发明提供的一种基于互关联挖掘的半配对图文检索方法解决现有图文检索方法对于大规模图文数据的依赖，通过挖掘大量不配对图文数据间潜在的关联信息丰富了跨模态学习，提高了图文检索模型在受限环境下的性能，进而提升其应用能力。

附图说明

图1为本发明一种基于互关联挖掘的半配对图文检索方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，一种基于互关联挖掘的半配对图文检索方法，包括以下步骤：

所述S1中，所述配对图文集与不配对图文数据集均包括若干组图文对，其中，任一组图文对设置有一幅图像与一个文本。

所述S1中，基于图像和文本的深度神经网络编码器包括图像编码器和文本编码器，图像编码器用于得到图像的全局特征，文本编码器用于得到文本的全局特征。

所述S2中，计算一组图文对中图像I与文本T的视觉语义相似度S(I，T)的表达式具体为：

所述S3中，计算第一半配对学习损失Linter(I_k，T_k，1)的表达式具体为：

式中，[*]₊为铰链三元组通式，其原理为：[x]₊≡max(x，0)，max(·)表示最大值通式，α为边际参数，V为视图数目，为图像I_k的第i个视图，/>为文本T_k的第j个视图，/>为最难负样本的图像的第i个视图，/>为最难负样本的文本的第j个视图，S′(*，*)为操作定位通式，其原理具体为：若S′(I₁，T₁)中图像I₁和文本T₁属于配对图文集中的一组图文对，则S′(I₁，T₁)＝S(I₁，T₁)，否则S′(I₁，T₁)＝βS(I₁，T₁)，β∈(0，1]，β为放缩参数。

本发明通过利用配对数据训练的初步收敛模型来逐步从未配对数据中挖掘潜在可用的伪配对数据来进一步丰富视觉语义信息，这将从大规模未配对的图文数据集上进行跨模态学习提供可能。

所述S5中，得到伪配对样本的方法包括挖掘伪配对文本法与挖掘伪配对图像法；

得到所述伪配对文本T′_n的表达式具体为：

得到伪配对图像I′_n的表达式具体为：

在本实施例中，本发明通过利用视觉语义相似度来寻找最相似的跨模态样本组成伪配对图文对，这将给跨模态学习提供更多潜在的视觉语义关联，进而提升性能。

所述S6中，计算第二半配对学习损失Loverall的表达式具体为：

Linter(I_k，T_k，0)＝L_a(I_k)+L_b(T_k)

式中，L_a(I_k)为第一挖掘损失，L_b(T_k)为第二挖掘损失；

计算第一挖掘损失L_a(I_k)的表达式具体为：

计算第二挖掘损失L_b(T_k)的表达式具体为：

所述S7中，得到优化后的基于图像和文本的深度神经网络编码器的网络参数的表达式具体为：

式中，Θ为编码器的参数，AdamOptimizer为反向梯度优化器。

所述S8具体为：

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.一种基于互关联挖掘的半配对图文检索方法，其特征在于，包括以下步骤：

S8、通过最优的基于图像和文本的深度神经网络编码器，计算图像的查询样本与所有检索样本间的视觉语义相似度，进而获得检索结果，完成图文检索；

所述S1中，所述配对图文集与不配对图文数据集均包括若干组图文对，其中，任一组图文对设置有一幅图像与一个文本；

所述S1中，基于图像和文本的深度神经网络编码器包括图像编码器和文本编码器，图像编码器用于得到图像的全局特征，文本编码器用于得到文本的全局特征；

所述S2中，计算一组图文对中图像I与文本T的视觉语义相似度S(I,T)的表达式具体为：

式中，f(·)为图像编码器，g(·)为文本编码器，f(I)为图像I的全局特征，g(T)为文本T的全局特征，图像I和文本T均属于小批次数据，f(I)^T表示转置的图像I的全局特征；

所述S3中，计算第一半配对学习损失Linter(I_k,T_k,1)的表达式具体为：

式中，[*]₊为铰链三元组通式，其原理为：[x]₊≡max(x，0)，max(·)表示最大值通式，α为边际参数，V为视图数目，为图像I_k的第i个视图，/>为文本T_k的第j个视图，/>为最难负样本的图像的第i个视图，/>为最难负样本的文本的第j个视图，S'(*,*)为操作定位通式，其原理具体为：若S'(I₁,T₁)中图像I₁和文本T₁属于配对图文集中的一组图文对，则S'(I₁,T₁)＝S(I₁,T₁)，否则S'(I₁,T₁)＝βS(I₁,T₁),β∈(0,1]，β为放缩参数；

所述挖掘伪配对图像法具体为：根据不配对图文数据集中的文本通过视觉语义相似度计算得到伪配对图像；

得到所述伪配对文本T′_n的表达式具体为：

式中，argmax(*)为用于计算目标函数的最小值的函数，D_u为不配对图文数据集，S(I_n,T_m)为图像I_n与文本T_m的视觉语义相似度，图像I_n属于不配对图文数据集；

得到伪配对图像I′_n的表达式具体为：

式中，S(I_m,T_n)为图像I_m与文本T_n的视觉语义相似度，文本T_n属于不配对图文数据集；

所述S6中，计算第二半配对学习损失Loverall的表达式具体为：

式中，y_i为配对的标签，用于表示是否图文配对，若图像I_k和文本T_k属于配对图文，则y_i取值为1，若图像I_k和文本T_k不属于配对图文，则y_i取值为0，Linter(I_k,T_k,0)为不配对数据的视觉语义挖掘损失，K为小批次数据大小，(I_k,T_k)为第i对图文对；

其中，计算不配对数据的视觉语义挖掘损失Linter(I_k,T_k,0)的表达式具体为：

Linter(I_k,T_k,0)＝L_a(I_k)+L_b(T_k)

式中，L_a(I_k)为第一挖掘损失，L_b(T_k)为第二挖掘损失；

计算第一挖掘损失L_a(I_k)的表达式具体为：

计算第二挖掘损失L_b(T_k)的表达式具体为：

式中，为文本T_k的第j个视图/>与文本T_k的伪配对图像I′_k的视觉语义相似度，/>为文本T_k的第j个视图/>与其最难负样本的图像/>的视觉语义相似度，为文本T_k的伪配对图像I′_k与其最难负样本的文本/>的第j个视图/>的视觉语义相似度。

2.根据权利要求1所述的基于互关联挖掘的半配对图文检索方法，其特征在于，所述S7中，得到优化后的基于图像和文本的深度神经网络编码器的网络参数的表达式具体为：

式中，Θ为编码器的参数，AdamOptimzer为反向梯度优化器。

3.根据权利要求1所述的基于互关联挖掘的半配对图文检索方法，其特征在于，所述S8具体为：