CN116821408B

CN116821408B - 一种多任务一致性对抗的检索方法及系统

Info

Publication number: CN116821408B
Application number: CN202311096065.6A
Authority: CN
Inventors: 冯爱民; 钟志清
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-12-01
Anticipated expiration: 2043-08-29
Also published as: CN116821408A

Abstract

本发明实施例公开了一种多任务一致性对抗的检索方法及系统，涉及新一代图文互检领域，能够得到不同模态的共享表示的同时，还减少信息损失。本发明包括：将待处理的样本数据，输入模态特定的预处理模块并进行特征提取，并得到特征向量信息。将所得到的特征向量信息，通过模态特定的表征分离模块得到模态的共享表示特征向量。将所得到的特征向量信息，通过模态特定的子网络映射到公共子空间。将所述公共子空间中的公共表示，通过第一网络映射语义子空间。将所述公共子空间中的公共表示，通过第二网络构建模态判别器，利用所构建的模态判别器区分每个公共表示的原始模态。本发明适用于图文领域之间的相互检索。

Description

一种多任务一致性对抗的检索方法及系统

技术领域

本发明涉及新一代图文互检领域，尤其涉及一种多任务一致性对抗的检索方法及系统。

背景技术

跨模态检索是指以一种类型的数据作为查询，检索另一种类型的相关数据。其跨不同的模态（如图像和文本）进行检索的灵活性一直受到学术界和工业界的广泛关注，尤其在新一代智能搜索引擎，拍照购，在线搜题等行业上。

多模态数据之间的相关性是跨模态检索的核心。然而，模态间潜在的异构性导致了不可比性，因此实现跨模态检索的关键在于如何跨越不同模态之间的异构鸿沟。其中一种消除跨模态差异的常用方法是表征学习，即通过学习一种模态特定的转换函数，将不同模态的数据转换到一个公共子空间，在该子空间中可以直接进行相似性度量。然而，现有方案在学习转换的过程中，通常只关注数据集中的一部分信息，在目标函数的设计上存在不同程度的信息损失，并且大部分方法在探索不同模态数据之间的语义一致性信息方面的能力有限，从而限制了模型性能。

因此，如何在维持语义一致性，同时还减少信息损失，成为了需要研究的课题。

发明内容

本发明的实施例提供一种多任务一致性对抗的检索方法及系统，能够在得到不同模态的公共表示的同时，维持语义一致性，同时还减少信息损失。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供的方法，包括：

S1、将待处理的样本数据，输入模态特定的预处理模块并进行特征提取，并得到特征向量信息，其中，所述待处理的样本数据包括：由图像样本和文本样本组成的样本对，所述预处理模块输出的特征向量信息包括：原始的高维度的图像特征向量和文本特征向量；

S2、将所述特征向量信息，输入模态特定的表征分离模块并得到模态特征向量信息，其中，所述模态特征向量信息包括：模态共享特征向量信息和模态特有特征向量信息；

其中，将得到的两种模态的原始特征向量经过模态特定的表征分离模块得到模态的公共表示，再经过各自模态特定的子网络非线性的映射到一个公共子空间，基于公共子空间提出一种跨模态信息聚合约束，其在同时考虑绝对距离和相对距离的前提下聚合数据集中全局信息和细粒度信息。

S3、将所述模态共享特征向量信息，通过模态特定的子网络映射到公共子空间，以便于基于所述公共子空间对应得到跨模态信息聚合约束。

S4、将所述公共子空间中的公共表示，通过第一网络映射到语义子空间，其中，通过语义约束表示语义子空间中的向量表示和样本标签之间的潜在关联；

其中，第一网络和第二网络如附图1和3，第一网络由一层全连接层组成，和上面公共子空间一个道理，其输出的向量也可以看做是空间中的一点（该空间称之为语义子空间）。第二网络由三层全连接层组成。

S5、利用所述公共子空间中的公共表示和第二网络构建模态判别器，其中，所述模态判别器用于区分每个公共表示的原始模态；本实施例中，基于模态判别器提出了一个模态约束以区分每个公共表示的原始模态，其与跨模态信息聚合约束的优化目标相反，两者依靠模态特征信息相互对抗为模型引入对抗学习；

S6、当接收到终端设备发出的查询项之后，将所述查询项转换成公共表示，并利用转换得到的公共表示获取查询结果。

其中，当接收到终端设备发出的查询项之后，将所述查询项转换成公共表示；查询数据库中存储的公共表示，并得到与转换的公共表示最相似的且来自另一个模态的公共表示，并将所述来自另一个模态的公共表示作为查询结果向所述终端设备反馈。

本实施例中，所述模态共享特征向量信息，包括：在图像特征向量和文本特征向量这两种不同模态的特征向量中，表示相同语义的特征向量信息；所述模态特有特征向量信息，包括：在图像特征向量和文本特征向量这两种不同模态的特征向量中，各自对语义无关的信息。具体的，在所述图像特征向量中表示相同语义的特征向量信息的部分也可以称之为图像共享特征向量，在所述文本特征向量中表示相同语义的特征向量信息的部分也可以称之为文本共享特征向量。

本实施例中，所述模态特定的预处理模块包括图像预处理模块和文本预处理模块；所述模态特定的子网络，包括图像子网络和文本子网络；

在S1中的所述特征提取过程中，包括：将成对的图像样本和文本样本分别输入图像预处理模块和文本预处理模块；在所述图像预处理模块中，通过VGG-19网络对所述图像样本进行特征提取，并获取fc7层中输出的4096维向量作为第二模型中的图像子网络的输入；在所述文本预处理模块中，通过词袋模型（BoW）对文本数据进行处理，并生成高维度的文本特征向量作为第二模型中的文本子网络的输入。具体的，第一模型包括：图像预处理模块和文本预处理模块以及其中各自运行的VGG神经网络模型和BoW模型。第一模型，用于将原始的模态信息进行预处理，并将得到的特征向量信息传递到第二模型。第二模型中则包括模态特定的表征分离模块、模态特定的子网络、第一网络和第二网络。其中，模态特定的表征分离模块中则可以细分为图像表征分离模块和文本表征分离模块；所述模态特定的子网络，包括图像子网络和文本子网络。

所述模态特定的表征分离模块包括：图像表征分离模块和文本表征分离模块，将经过预处理所得到的图像特征向量（也可以称之为图像原始特征数据）和文本特征向量（也可以称之为文本原始特征数据），分别输入图像表征分离模块和文本表征分离模块进行进一步处理，两个模块分别由一层卷积神经网络构成，这一层卷积神经网络中采用作为激活函数，在分离过程中建立表征判别器的一致性对抗损失包括：其中，/>分别是第j个实例的图像模态和文本模态的共享表征可作为公共表征，/>分别是第j个实例的图像模态和文本模态的特有表征，D为表征判别器，y _j表示第j个预测结果，σ_ca为表征判别器的权值参数，n为样本个数，j为正整数，/>为一致性对抗约束。

本实施例中，在S3包括：将所得到的图像共享特征向量和文本共享特征向量，经过各自的模态特定的子网络，非线性的映射到所述公共子空间；其中，所述模态特定的子网络，包括：图像子网络和文本子网络，两种子网络分别由三层全连接神经网络构成。具体的，在S3中，所述映射到公共子空间的过程中需要利用检索损失模型，所述检索损失模型由三个子项组成，其中包括：以三元组中心损失构建第一个子项，其中，三元组为，其中/>是一个文本查询项，/>为正类中心且与文本查询项/>标签类别相同，/>为负类中心且与文本查询项/>标签类别不相同；三元组中心损失为：，其中，N ₁表示三元组的总数量，m ₁表示一个可调节的阈值，i ₁、i ₂、i ₃分别表示不同的类中心；以四元组中心损失构建第二个子项，其中，四元组为/>，/>是与/>不同的负类中心，四元组中心损失为：，其中，N ₂表示四元组的总数量，m ₂是另一个可调节的阈值；利用三元组中心损失和四元组中心损失，在全局层面上建立的约束包括：，其中，σ _I和σ _T分别是图像子网络和文本子网络的权值参数；同样方式可以得到图像查询文本情况下的/>。

构建的第三个子项为：，其中，/>，E是一个指示器矩阵，i _j表示第j个图像样本和t _k表示第k个文本样本，j、k分别为正整数，E _jk用于表示i _j和t _k的类别是否相同，若相同则E _jk=1，否则E _jk=0；n表示图文对个数。

根据在全局层面上建立的约束和所述第三个子项，构建完整的检索损失：其中，/>是超参数，/>表示文本查询图像的全局损失，/>表示图像查询文本的全局损失，/>表示基于样本对的局部损失。

本实施例中，在S4中，所述第一网络由一层全连接神经网络构成，其中采用的语义约束为：，/>表示所述第一网络的网络参数，n表示图文对个数，/>表示语义子空间中的向量，s _j表示对应样本的标签向量。具体的，/>表示语义子空间中的向量，d _o代表练数据集中样本的类别数量，R ^do代表d _o维度的的向量空间，/>表示对应样本的标签向量。

本实施例中，在S5中，所构建的模态判别器的模态对抗损失函数表示为：其中，f _bce表示用于模态分类的二分类交叉熵损失函数，c( )表示一个模态指示器，当输入x表示文本时，c(x)=1，否则c(x)=0，p( )表示输入生成的每个模态的概率，σ_ma表示判别器的参数，f_T表示文本子网络，t_x表示文本共享特征向量，σ_T表示文本子网络的权重参数，f_I表示图像子网络，i_x表示图像共享特征向量，σ_I表示图像子网络的权重参数，/>表示模态对抗损失。

进一步的，本实施例中还包括：通过Adam算法优化所构建的模态判别器，其中，在优化过程中，通过两个并行子过程进行最大最小博弈，包括：其中，/>表示一致性对抗损失网络权重参数，/>表示判别器的参数，/>表示检索损失，/>表示语义损失，/>表示模态对抗损失，/>表示一致性对抗损失，/>表示语义损失网络权重参数。

第二方面，本发明的实施例提供的系统，包括：

预处理模块，用于将待处理的样本数据，输入模态特定的预处理模块并进行特征提取，并得到特征向量信息，其中，所述待处理的样本数据包括：由图像数据和文本数据组成的样本对，所得到的特征向量信息包括：图像特征向量和文本特征向量；

处理模块，用于将所述特征向量信息，输入模态特定的表征分离模块并得到模态特征向量信息，其中，所述模态特征向量信息包括：模态共享特征向量信息和模态特有特征向量信息；将所述模态共享特征向量信息，通过模态特定的子网络映射到公共子空间；将所述公共子空间中的公共表示，通过第一网络映射到语义子空间，其中，通过语义约束表示语义子空间中的向量表示和样本标签之间的潜在关联；利用所述公共子空间中的公共表示和第二网络构建模态判别器，其中，所述模态判别器用于区分每个公共表示的原始模态；

数据库模块，用于存储所述处理模块得到的公共表示；

查询反馈模块，用于接收终端设备发出的查询项，将所述查询项转换成公共表示，之后查询数据库中存储的公共表示，得到与转换的公共表示最相似的且来自另一个模态的公共表示，并向所述终端设备反馈查询结果。

本发明实施例提供的多任务一致性对抗的检索方法及系统，将待处理的样本数据，输入模态特定的预处理模块并进行特征提取，并得到特征向量信息。将所得到的特征向量信息，通过模态特定的表征分离模块得到模态的共享表示特征向量。将所得到的特征向量信息，通过模态特定的子网络映射到公共子空间。将所述公共子空间中的公共表示，通过第一网络映射语义子空间。将所述公共子空间中的公共表示，通过第二网络构建模态判别器，利用所构建的模态判别器区分每个公共表示的原始模态。本发明适用于图文领域之间的相互检索，能够在得到不同模态的公共表示的同时，维持语义一致性，减少信息损失。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的跨模态检索模型的一种可能的实现方式的示意图。

图2为本发明实施例提供的第一模型的一种可能的实现方式的示意图。

图3为本发明实施例提供的第二模型的一种可能的实现方式的示意图。

图4为本发明实施例提供的方法流程示意图。

实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明实施例提供一种多任务一致性对抗的检索方法，具体来说是一种属于跨模态检索技术的方案改进，主要的设计思路在于：通过采用两个子空间的双重约束和对抗学习在分离模态表征的同时最大限度的减少跨模态过程中的信息损失，生成了具有更强跨模态相似性和语义区分性的公共表示，从而在保证语义一致性的同时，还减少信息损失。具体如图1所示的，采用两个子空间的双重约束和对抗学习最大限度的减少跨模态过程中的信息损失，生成具有更强跨模态相似性和语义区分性的公共表示。主要的方法流程如图1、4所示，包括：

将待处理的样本数据，输入模态特定的预处理模块并进行特征提取，并得到特征向量信息。

其中，模态特定的预处理模块是指针对特定的模态采用特定的不同的预处理模型。对于图像模态的数据采用VGG网络执行预处理，对于文本模态的数据采用BoW网络进行预处理。具体可见图2。其中，VGG网络是深度学习专门用来提取图像中特征信息的一种神经网络。BoW也是专门处理文本的一种常见的模型。

本实施例中所提及的预处理模块，实际应用中可以实现为一种代码程序，如附图2所示，针对不同的模态采用不同的模型来对原始的图片和文字进行特征提取。VGG网络是深度学习里专门处理图片的一种神经网络，其效果非常好，在人工智能领域广泛应用，得到一众认可，把它当做图像模态的预处理模块。BoW同样也是专门处理文本的一种常见的应用广泛的模型，把它当做文本模态的预处理模块。

所述待处理的样本数据包括由图像数据和文本数据组成的样本对，所得到的特征向量信息包括：图像特征向量和文本特征向量。例如：可以将未处理过的图像和文本作为输入样本对，输入到各自的模态特定的预处理模块中进行特征提取，分别得到原始的高维度的图像特征向量和文本特征向量。需要说明的是，高低没有具体的标准，本实施例中所称的高维度一般是几千维，低纬度一般是几百维，高低都是相对而言。BOW和VGG的输出都是三四千维，而公共子空间维度只有几百。

将所得到的特征向量信息，通过模态特定的表征分离模块。

其中，基于所述分离过程对应得到一致性对抗损失。例如：可以将得到的两种模态的原始特征向量，经过各自模态特定的表征分离得到模态共享和模态特有两个部分的特征向量，基于这个分离过程提出一种一致性对抗损失，其作为表征分离模块的敌人用来指导表征分离模块的分离。

具体的，所述一致性对抗损失，指的是：基于表征判别器模块提出了一个损失函数，该损失函数的公式是下面的。跨模态信息聚合约束，指的是：基于公共子空间的公共表示提出了一个损失函数，该函数公式是下面的/>。语义约束，指的是：基于语义子空间中的向量表示提出了一个语义损失函数，该函数公式是下面的/>。模态约束，指的是：将模态判别器的损失函数称为模态损失，公式是下面的/>。实际设计时，每个约束具体对应一个损失函数。

将所得到的模态共享特征向量信息，通过模态特定的子网络映射到公共子空间。

其中，基于所述公共子空间对应得到跨模态信息聚合约束。例如：可以将得到的两种模态的公共特征向量，经过各自模态特定的子网络非线性的映射到一个公共子空间，基于公共子空间提出一种跨模态信息聚合约束，其在同时考虑绝对距离和相对距离的前提下聚合数据集中全局信息和细粒度信息。

具体的，所述跨模态信息聚合约束，指的是：基于公共子空间的公共表示提出了一个损失函数（一些学者也称之为检索损失），该损失函数的公式是下面的。这部分之所以称之为跨模态信息聚合，是因为该部分的检索损失聚合了数据集中的全局信息和细粒度信息，它比检索损失读起来更形象直观，检索损失算是一种简称或者是跨模态信息聚合约束的具体实现函数。

将所述公共子空间中的公共表示，通过第一网络映射语义子空间。

其中，语义子空间中的向量表示和样本标签之间建立潜在关联，并且所述潜在关联对应语义约束。例如：可以将公共子空间中的公共表示进一步通过第一网络映射到一个语义子空间，基于语义子空间中的向量表示和样本标签之间的潜在关联提出一种语义约束。具体的，公共子空间就是从S2得到的，例如：s2中将图像特征向量（比如4096维）输入到图像子网络，经过网络映射输出了一个200维的向量。那么该200维的向量就可以看做是一个200维度空间的一个点，向量就是该点的坐标。所以经过步骤S2，所有的特征向量都映射到了200维空间的一个点，因为图像和文本都处于这个空间中，所以该空间叫做公共子空间，空间每个点（即每个200维的向量）叫做公共表示。第一网络和第二网络如附图1和3，第一网络由一层全连接层组成，和上面公共子空间一个道理，其输出的向量也可以看做是空间中的一点（该空间称之为语义子空间）。第二网络由三层全连接层组成。模态判别器是根据第二网络的功能起的一个别称，其输出不在是一个向量，而是一个值（标量），该值可以用来判别模态。

将所述公共子空间中的公共表示，通过第二网络构建模态判别器，利用所构建的模态判别器区分每个公共表示的原始模态。

本实施例的工作方式类似于常用的搜索引擎（如图片搜索引擎），当输入查询项时，该模型会将查询项先转换成公共表示，然后模型会在比如数据库中查找与该公共表示最相似的来自另一个模态的公共表示，然后给用户返回对应的查询结果。比如用户输入有关于猫的文字描述，模型会给用户返回一些猫的图片。用户输入一张图片，模型给用户返回关于这张图的一些报道或描述。其中，可以将公共子空间中的公共表示进一步通过第二网络来构建一个模态判别器，基于模态判别器提出了一个模态约束以区分每个公共表示的原始模态，其与跨模态信息聚合约束的优化目标相反，两者依靠模态特征信息相互对抗为模型引入对抗学习。本发明采用两个子空间的双重约束和对抗学习最大限度的减少跨模态过程中的信息损失，生成了具有更强跨模态相似性和语义区分性的公共表示。

本实施例中，在步骤S1中包括：通过VGG-19网络对图像数据进行特征提取，其中，获取fc7层中输出的4096维向量作为所述第二模型中的图像子网络的输入。通过词袋模型（BoW）对文本数据进行处理，并生成高维度的文本特征向量作为所述第二模型中的文本子网络的输入。例如：如图2所示的，将未处理过的图像和文本作为输入样本对输入到各自模态特定的预处理模块中进行特征提取，分别得到原始的高维度的图像特征向量和文本特征向量作为后续子网络的输入。虽然它作为整个跨模态检索模型的前半部分，但是不参与整个模型的训练，其本质上是一个数据预处理的过程。具体来说，对于未处理的图像样本，本实施例使用预训练的VGG-19网络对其进行特征提取，获得其fc7层中输出的4096维向量作为第二模型中图像子网络的输入。未处理的文本样本通过众所周知的词袋模型（BoW）来生成原始的高维度的文本特征向量作为第二模型中文本子网络的输入。

随后，将来自图像和文本的原始向量输入到表征分离模块，可以得到图像模态共享，图像模态特有，文本模态共享，文本模态特有四个部分。其中模态共享部分作为之后的输入。例如：在模态分离模块中，将它们输入到两个不同的卷积层，其中内核大小为1×1，激活函数为sigmoid。将分离出的特征向量输入到表征判别器之后，提出一种一致性对抗约束，为了简便，本实施例称该约束为一致性对抗损失，其作为表征分离模块的敌人，能够很好地指导表征分离模块的分离过程，从而得到更接近模态语义的分离，保持了语义的高度一致。

本实施例中，在步骤S2中包括：具体在公共子空间的构建过程中，可以将得到的两种模态的模态共享特征向量经过各自模态特定的子网络非线性的映射到一个公共子空间。例如：图像子网络和文本子网络分别由三层全连接神经网络构成，全连接神经网络具有丰富的参数在了子网络有足够的能力实现这一复杂转换。为了在从不同模态更好的转换到同一子空间，本实施例在两个子网络的最后一层采用了权重共享。基于公共子空间本实施例提出一种跨模态信息聚合约束，为了简便，本实施例称该约束为检索损失，其在同时考虑绝对距离和相对距离的前提下聚合了数据集中全局信息和细粒度信息，极大地减少了跨模态过程中的信息损失，确保了公共表示的跨模态相似性。

其中，/>分别第j个图像共享，图像特定，文本共享，文本特定表示。D表示表征判别器，/>表示第j个预测结果，/>为表征判别器的权值参数。

在本实施例的设计和方案研发过程中发现，跨模态检索中，本质问题是找到不同模态之间的语义一致性信息。而在实际应用中，对于一对相关实例，每个实例不仅具有共同的语义一致性信息即模态共享信息，而且还具有模态特有信息，例如图像中语义不相关的背景信息。虽然两种信息是相互排斥的，但它们的提取过程可以相互促进。因此，对于图像模态和文本模态，本实施例中设计了表征分离模块，将图像表示和文本表示分为图像/文本模态-共享表示和图像/文本模态-特有表示。

具体来说，构建了一个表征分离模块用于分离模态共享表征和模态特有表征。对于输入实例，假设第一网络的输出表征为/>，将其分别输入到对应的表征分离模块和/>中，生成每个模态的表征分离掩码，公式定义如下：其中，/>分别表示第二模型中的图像表征分离模块和文本表征分离模块，/>分别是第一模型中第j个示例对应的图像预处理模块和文本预处理模块的输出，/>分别是第j的示例对应的图像信息和文本信息，/>分别是第j个实例的图像模态和文本模态的共享表征分离掩码，/>分别是第j个实例的图像模态和文本模态的特定表征分离掩码。

通过将表征分离掩码和对应输出表征/>做点积运算可得模态共享表征和模态特定表征，公式定义如下：/>其中，/>分别是第j个实例的图像模态和文本模态的共享表征作为公共表征，/>分别是第j个实例的图像模态和文本模态的特有表征。

由于模态共享表示和模态特有表示是互斥的，同时学习模态共享表示和模态特有表示有利于获得更具辨别力的模态共享表示。

本实施例中，在步骤S3中包括：将所得到的图像特征向量和文本特征向量，经过各自的模态特定的子网络，非线性的映射到所述公共子空间，其中，图像子网络和文本子网络分别由三层全连接神经网络构成，在映射过程中所利用的检索损失模型，由三个子项组成。

以三元组中心损失构建第一个子项，其中，三元组为，其中t_q是一个文本查询项，/>为正类中心且与文本查询项t_q标签类别相同，/>为负类中心且与文本查询项t_q标签类别不相同。

三元组中心损失为：，其中，N ₁表示三元组的总数量，m₁表示一个可调节的阈值，/>表示分别表示不同的类中心，下标中的1、2和3只是为了区分这是不同的类中心，i表示该项是属于图像模态，t表示该项属于文本模态。

例如：检索损失具体设计方式包括：检索损失由三个子项组成，子项分别以三元组、四元组和成对的形式出现，它聚合了数据集中全局信息和细粒度信息。其中：步骤1、构建第一个子项即三元组中心损失，接下来以文本查询图像为例进行说明：一个三元组定义为，其中t_q是一个文本查询项，/>和/>是两个不同的图像类别中心。本实施例称为/>正类中心，它与文本查询项t_q标签类别相同，本实施例称/>为负类中心，它与文本查询项t_q标签类别不相同。

然后，三元组中心损失定义如下：其中，N ₁代表三元组的总数量，m ₁是一个可调节的阈值，/>是合页函数，代表欧式距离。上述公式在了查询项到对应的正类中心的距离小于查询项到任意一个负类中心的距离。该子项考虑到了相同锚点下的绝对距离并使用样本到类别中心的关系为模型引入全局信息。

四元组中心损失构建第二个子项，其中，四元组为，，/>是与/>不同的负类中心，四元组中心损失为：/>，其中，N ₂表示四元组的总数量，m ₂是另一个可调节的阈值。例如：步骤2、构建第二个子项即四元组中心损失。一个四元组形式上定义为/>是任意两个不同的负类中心。然后，四元组中心损失定义如下：/>，上述公式在了查询项到正类中心之间的距离小于任何两个不同的负类中心之间的距离。该子项考虑了不同锚点下的相对距离并为模型引入了数据集中另一部分全局信息，作为三元组中心损失的补充。

利用三元组中心损失和四元组中心损失，建立全局层面上的约束：其中，/>分别是图像子网络和文本子网络的权值参数。例如：步骤3、通过结合上述两个公式，本实施例得到了一个全局层面上的约束，公式定义如下：其中，/>分别是图像子网络和文本子网络的权值参数。上述公式使模型利用全局信息构造公共子空间，极大的降低了由于样本对之间的巨大差异而导致模型更新的难度。同样，本实施例可以得到图像查询文本情况下的/>：/>。构建第三个子项：/>，其中，/>，E是一个指示器矩阵，i _j表示第j个图像样本和t _k表示第k个文本样本，j、k分别是正整数。E _jk用于表示i _j和t _k的类别是否相同，若相同则E _jk=1，否则E _jk=0。例如：步骤4、构建第三个子项，该子项是一种基于样本对的局部层面上的约束，公式定义为：，使同一类别的样本之间的余弦值尽可能大，而不同类别样本之间的余弦值尽可能小。

根据所述全局层面上的约束好所述第三个子项，构建完整的检索损失：，其中，/>是超参数。通过聚合不同层面级别上的约束有效地减少了信息损失，在了公共表示的跨模态相似性。

本实施例中，在步骤S4中，所述第一网络由一层全连接神经网络构成，其中的语义约束为：，其中，/>表示所述第一网络的网络参数，/>表示语义子空间中的向量表示，/>代表训练数据集中样本的类别数量，/>代表/>维度的向量空间，/>表示对应样本的标签向量。例如：可以将公共子空间中的公共表示进一步通过第一网络映射到一个语义子空间，基于语义子空间中提出一种语义约束，其利用样本标签和语义子空间的向量表示之间潜在的语义关联来优化公共子空间的分布。如图3，第一网络由一层全连接神经网络构成。语义约束公式表达如下：，其中，/>是该部分的网络参数，/>是语义子空间中的向量表示，/>是对应样本的标签向量。该公式不仅在了公共表示的语义判别性，同时也对公共表示的生成过程起到了一定的正则化作用。

本实施例中，在步骤S5中，建立模态判别器的模态损失：其中，f _bce表示用于模态分类的二分类交叉熵损失函数，c( )表示一个模态指示器，当输入x表示文本时，c(x)=1，否则c(x)=0，p( )表示输入生成的每个模态的概率，σ_d表示判别器的参数。例如：可以将公共子空间中的公共表示进一步通过第二网络来构建一个模态判别器，本实施例基于模态判别器提出了一个模态约束以区分每个公共表示的原始模态，其目标是尽可能多地区分公共表示的原始模态。然而，跨模态聚合约束旨在生成具有跨模态相似性的公共表示，这与模态判别器的目的是相反的。因此，两者作为竞争对手进行了一场最大最小博弈。可以通过最大化/>，进一步提高了模型的性能和鲁棒性。

进一步的，本实施例中还可以通过Adam算法优化所述模态判别器，其中，在优化过程中进行最大最小博弈。具体的，Adam算法近似于mini-batch的真实梯度来更新模型。学习最佳表征的过程是联合最小化检索损失、语义损失和模态损失。由于检索损失和模态判别器的优化目标是相反的，因此最大最小博弈以如下公式运行：该模型的训练实际上是一个不断优化k次生成过程和一次判别过程的过程，直到整个模型的结果收敛。与所有对抗学习方法一样，“生成器”的参数在“鉴别器”的训练阶段是固定的，反之亦然。如图3可知本发明的方法可以极大地减少跨模态过程中的信息损失，生成具有更强的跨模态相似性和语义判别性的公共表示，有效的提高了跨模态检索的精度。

本实施例的优点在于：通过跨模态信息聚合约束极大地减少信息损失，生成公共表示的同时具有更强跨模态相似性。一致性对抗约束利用模态内共享和特有信息增强了公共表示的语义一致性。语义约束利用样本标签中的语义信息增强了公共表示的语义判别性。模态约束利用模态固定信息进一步减少信息损失，增强模型鲁棒性。

需要说明的是，本实施例也并非一种单纯的计算方法，而是可以应用于检索系统中，并辅助改进搜索引擎。例如在实际应用中，本实施例的方法可以应用于一种系统，包括：

数据库模块，用于存储所述处理模块得到的公共表示；

具体的，本实施例适用于图文领域之间的相互检索，即查询项会通过已经训练好的该模型转化为一个公共表示，模型会进一步通过衡量查询项和其他公共表示之间的相似度来返回来自另一个模态的查询结果。例如：工作方式类似于目前常用的搜索引擎，当输入查询项时，该模型会将查询项先转换成公共表示，然后模型会在比如数据库中查找与该公共表示最相似的来自另一个模态的公共表示，然后返回对应的查询结果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多任务一致性对抗的检索方法，其特征在于，包括：

S1、将待处理的样本数据，输入模态特定的预处理模块并进行特征提取，并得到特征向量信息；

S2、将所述特征向量信息，输入模态特定的表征分离模块并得到模态特征向量信息，所述模态特征向量信息包括：模态共享特征向量信息和模态特有特征向量信息；

S3、将所述模态共享特征向量信息，通过模态特定的子网络映射到公共子空间；

S5、利用所述公共子空间中的公共表示和第二网络构建模态判别器，其中，所述模态判别器中加载模态对抗损失函数；

S6、当接收到终端设备发出的查询项之后，将所述查询项转换成公共表示，并利用转换得到的公共表示获取查询结果；

所述待处理的样本数据包括：由图像样本和文本样本组成的样本对，所述预处理模块输出的特征向量信息包括：图像特征向量和文本特征向量；所述模态特定的表征分离模块包括：图像表征分离模块和文本表征分离模块，分别输入图像特征向量和文本特征向量；所述图像表征分离模块和所述文本表征分离模块，分别由一层卷积神经网络构成，这一层卷积神经网络中采用sigmoid作为激活函数；

所述模态共享特征向量信息，包括：在图像特征向量和文本特征向量这两种不同模态的特征向量中，表示相同语义的特征向量信息；所述模态特有特征向量信息，包括：在图像特征向量和文本特征向量这两种不同模态的特征向量中，各自对语义无关的信息；

在分离过程中建立的表征判别器的一致性对抗损失包括：其中，/>和/>分别是第j个实例的图像模态和文本模态的共享表征可作为公共表征，/>和/>分别是第j个实例的图像模态和文本模态的特有表征，D为表征判别器，y _j表示第j个预测结果，σ_ca为表征判别器的权值参数，n为样本个数，j为正整数，/>为一致性对抗约束；

还包括：

利用表征分离掩码和/>，确定共享表征和特有表征，其中：，/>分别是第j个实例的图像模态和文本模态的共享表征分离掩码，分别是第j个实例的图像模态和文本模态的特定表征分离掩码，/>分别是第一模型中第j个示例对应的图像预处理模块和文本预处理模块的输出。

2.根据权利要求1所述的方法，其特征在于，在S5中，所构建的模态判别器的模态对抗损失表示为：其中，f _bce表示用于模态分类的二分类交叉熵损失函数，c( )表示一个模态指示器，当输入x表示文本时，c(x)=1，否则c(x)=0，p( )表示输入生成的每个模态的概率，σ_ma表示判别器的参数，f_T表示文本子网络，t_x表示文本共享特征向量，σ_T表示文本子网络的权重参数，f_I表示图像子网络，i_x表示图像共享特征向量，σ_I表示图像子网络的权重参数，/>表示模态对抗损失。

3.根据权利要求1所述的方法，其特征在于，还包括：

通过Adam算法优化所构建的模态判别器，其中，在优化过程中进行最大最小博弈，包括：其中，/>表示检索损失，/>表示语义损失，/>表示一致性对抗约束，σ_s表示语义损失网络权重参数。

4.根据权利要求1所述的方法，其特征在于，所述模态特定的预处理模块包括图像预处理模块和文本预处理模块；

所述模态特定的子网络，包括图像子网络和文本子网络；

在S1中的所述特征提取过程中，包括：

将成对的图像样本和文本样本分别输入图像预处理模块和文本预处理模块；

在所述图像预处理模块中，通过VGG-19网络对所述图像样本进行特征提取，并获取fc7层中输出的4096维向量作为图像子网络的输入；

在所述文本预处理模块中，通过词袋模型（BoW）对文本数据进行处理，并生成文本特征向量作为文本子网络的输入。

5.根据权利要求1所述的方法，其特征在于，在S3，包括：

将所得到的图像共享特征向量和文本共享特征向量，经过各自的模态特定的子网络，非线性的映射到所述公共子空间；

其中，所述模态特定的子网络，包括：图像子网络和文本子网络，两种子网络分别由三层全连接神经网络构成。

6.一种多任务一致性对抗的检索系统，其特征在于，包括：

数据库模块，用于存储所述处理模块得到的公共表示；

查询反馈模块，用于接收终端设备发出的查询项，将所述查询项转换成公共表示，之后查询数据库中存储的公共表示，得到与转换的公共表示最相似的且来自另一个模态的公共表示，并向所述终端设备反馈查询结果；

所述模态共享特征向量信息，包括：在图像特征向量和文本特征向量这两种不同模态的特征向量中，表示相同语义的特征向量信息；所述模态特有特征向量信息，包括：在图像特征向量和文本特征向量这两种不同模态的特征向量中，各自对语义无关的信息;

还包括：