CN116578738B

CN116578738B - 一种基于图注意力和生成对抗网络的图文检索方法和装置

Info

Publication number: CN116578738B
Application number: CN202310862882.1A
Authority: CN
Inventors: 石雅洁
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2024-02-20
Anticipated expiration: 2043-07-14
Also published as: CN116578738A

Abstract

本申请涉及图文检索技术领域，提供了一种基于图注意力和生成对抗网络的图文检索方法、装置、电子设备及计算机可读存储介质。该方法包括：获得初始图片特征和初始文本特征；输入该初始图片特征和该初始文本特征至经训练的图文检索模型进行处理；基于该图文检索模型的处理，输出图文检索结果；其中，该图文检索模型包括图片区域整合网络、文本区域整合网络和生成对抗网络，图片区域整合网络和文本区域整合网络包括图注意力特征生成模块，生成对抗网络能够融合图片区域整合网络生成的图片图注意力特征和文本区域整合网络生成的文本图注意力特征，以生成最终图片特征和最终文本特征。本申请可以提高图文检索结果的准确性。

Description

一种基于图注意力和生成对抗网络的图文检索方法和装置

技术领域

本申请涉及图文检索技术领域，尤其涉及一种基于图注意力和生成对抗网络的图文检索方法、装置、电子设备及计算机可读存储介质。

背景技术

随着图片、文本等多模态数据增长，图文检索需求不断增加。由于文本和图片之间存在特征差异且图文检索需要统一学习图片表示和文本表示，因此，需要通过优化图文检索方法，以提高图片文本检索结果的准确性。

对于学习统一的图片表示和文本表示而言，在现有技术中，有的关注图片区域特征与文本句子相应单词之间的对齐，有的关注区域关系和关系词之间的对齐；但是均缺乏对区域信息和全局信息的联合学习，这会导致区域特征与全局语境失去联系；同时，现有技术都是基于已有图片文本进行训练和评估，难以有效地识别训练期间未见类型的图片或者文本。

发明内容

有鉴于此，本申请实施例提供了一种基于图注意力和生成对抗网络的图文检索方法、装置、电子设备及计算机可读存储介质，以解决现有技术缺乏对区域和全局信息联合学习，以及难以有效识别未见类型图文的问题。

本申请实施例的第一方面，提供了一种基于图注意力和生成对抗网络的图文检索方法，包括：

获得初始图片特征和初始文本特征；

输入所述初始图片特征和所述初始文本特征至经训练的图文检索模型进行处理；

基于所述图文检索模型的所述处理，输出图文检索结果；

其中，所述图文检索模型包括图片区域整合网络、文本区域整合网络和生成对抗网络；所述图片区域整合网络和所述文本区域整合网络包括图注意力特征生成模块，所述生成对抗网络能够融合所述图片区域整合网络生成的图片图注意力特征和所述文本区域整合网络生成的文本图注意力特征，以生成最终图片特征和最终文本特征。

本申请实施例的第二方面，提供了一种基于图注意力和生成对抗网络的图文检索装置，包括：

初始特征获取模块，能够获得初始图片特征和初始文本特征；

图文检索处理模块，能够输入所述初始图片特征和所述初始文本特征至经训练的图文检索模型进行处理；

检索结果输出模块，能够基于所述图文检索模型的所述处理，输出图文检索结果；

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现第一方面所述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现第一方面所述方法的步骤。

本申请实施例与现有技术相比存在的有益效果至少包括：本申请实施例通过将获得的初始图片特征和初始文本特征，输入至经训练的图文检索模型进行处理，输出图文检索结果；该图文检索模型包括图片区域整合网络、文本区域整合网络和生成对抗网络，图片区域整合网络和文本区域整合网络包括图注意力特征生成模块，生成对抗网络能够融合图片区域整合网络生成的图片图注意力特征和文本区域整合网络生成的文本图注意力特征，以生成最终图片特征和最终文本特征。本申请通过图注意力机制强化了区域特征和全局特征的联合学习，通过生成对抗网络融合包含图注意力特征在内的图文特征，能够同时对可见类型和未见类型图文进行识别，可以有效提高图文检索结果的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的图文检索模型结构示意图；

图2是本申请实施例提供的一种基于图注意力和生成对抗网络的图文检索方法的流程示意图之一；

图3是本申请实施例提供的一种基于图注意力和生成对抗网络的图文检索方法的流程示意图之二；

图4是本申请实施例提供的一种基于图注意力和生成对抗网络的图文检索方法的流程示意图之三；

图5是本申请实施例提供的一种基于图注意力和生成对抗网络的图文检索方法的流程示意图之四；

图6是本申请实施例提供的一种基于图注意力和生成对抗网络的图文检索方法的流程示意图之五；

图7是本申请实施例提供的一种基于图注意力和生成对抗网络的图文检索装置的结构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

下面将结合附图详细说明根据本申请实施例的一种基于图注意力和生成对抗网络的图文检索方法和装置。

如背景技术所述，图文检索方法在实际中应用广泛。如何进行图片表示和文本表示，以及将图片特征文本特征进行多模态融合以输出图文检索结果，是图文检索方法的关键。此外，由于大部分现有的图文检索方法是基于已有类型的图片和文本进行训练，难以有效地识别训练期间未见类型的图片或者文本，这使得图文检索结果的准确性受到一定影响。

有鉴于此，本申请实施例为解决上述问题，提供了一种图文检测模型。该图文检测模型是基于图注意力机制和生成对抗网络构建。

如图1所示，该图文检索模型包括图片区域整合网络、文本区域整合网络和生成对抗网络。其中，

图片区域整合网络包括第一图片编码器和图注意力特征生成模块。第一图片编码器用于对初始图片特征进一步提取特征；图注意力特征生成模块用于对经过第一图片编码器进一步提取的特征生成相应的图片图注意力特征，以便进一步获得图片表示。

文本区域整合网络包括第一文本编码器和图注意力特征生成模块。第一文本编码器用于对初始文本特征进一步提取特征；图注意力特征生成模块用于对经过第一文本编码器进一步提取的特征生成相应的文本图注意力特征，以便进一步获得文本表示。

生成对抗网络是进行图文检索的核心网络能够对图文进行多模态融合处理，包括第二图片编码器、第二文本编码器、多模态编码器、特征融合生成器和鉴别器。第二图片编码器用于基于对初始图片特征来学习上下文并获得包括可见类型标签的图片特征；第二文本编码器用于基于对初始文本特征来学习上下文并获得包括可见类型标签的文本特征；多模态编码器用于基于图片特征和文本特征生成相应的包括多模态标签的多模态特征；特征融合生成器用于将多模态特征分别与图片图注意力特征、文本图注意力特征进行融合，分别生成相应的图片生成特征和文本生成特征；鉴别器用于结合初始图片特征和初始文本特征对图片生成特征和文本生成特征进行比较，以获得图片最终特征和文本最终特征，并基于图片最终特征和文本最终特征获得图文检索结果。

本申请使用图注意力机制和生成对抗网络相结合的方案构建图文检索模型，主要基于以下考虑：

第一方面，图注意力机制能够学习增强图片的区域关系，同时可以学习文本语义关系的不同层次结构，也即包括区域特征在内的初始图片特征或者初始文本特征在进一步提取的图片或者文本图注意力特征，经过语义关系增强后，能够获得更丰富的图片或者文本区域信息，以起到获得更加准确获得图片表示和文本表示的作用。

第二方面，在通过生成对抗网络对可见类型的图文数据进行检索的同时，能够辅助检索在训练过程中未见类型的图文数据。通过融合上述图片或者文本图注意力特征与图片文本多模态特征，可以生成未见类型的图片特征或文本特征，以便将可见类型图片或文本特征与生成的未见类型图片或文本特征相结合，训练生成对抗网络获得图文检索结果。

下面基于图1所示的图文检索模型结构示意图，对本申请基于图注意力和生成对抗网络的图文检索方法的实现过程进行详细描述。

图2是本申请实施例提供的基于图注意力和生成对抗网络的图文检索方法流程示意图。图2的基于图注意力和生成对抗网络的图文检索方法可以由服务器执行，需要说明的是，服务器可以是硬件，也可以是软件。如图2所示，该基于图注意力和生成对抗网络的图文检索方法具体可以包括：

S201：获得初始图片特征和初始文本特征。

S202：输入初始图片特征和初始文本特征至经训练的图文检索模型进行处理；其中，图文检索模型包括图片区域整合网络、文本区域整合网络和生成对抗网络；图片区域整合网络和文本区域整合网络包括图注意力特征生成模块，生成对抗网络能够融合图片区域整合网络生成的图片图注意力特征和文本区域整合网络生成的文本图注意力特征，以生成最终图片特征和最终文本特征。

S203：基于图文检索模型的处理，输出图文检索结果。

具体地，获得初始图片特征。在本发明的一个实施例中，选择提取图片的检测框特征，即给定一个图片，使用RetinaNet模型来提取图片的检测框特征，RetinaNet模型输出是一组检测框特征，及初始图片特征/>，其中每个/>定义为图片中第/>个检测框的平均池化卷积特征。

具体地，获得初始文本特征。在本发明的一个实施例中，提取文本实例特征，使用句子的WordPiece标记作为文本片段，每个单词的最终嵌入为其标记嵌入、位置嵌入以段嵌入三者组合，最终每个文本单词表示为/>。然后采用循环神经网络GRU或通用语义表示模型BERT来学习单词表示，假设最大字数是/>，因此这些字可以表示为。

在一些实施例中，如图3所示，图文检索模型中图片区域整合网络的图注意力特征生成模块的工作过程包括：

S311：基于输入的图片和/或文本特征构造全连接图，全连接图的节点与图片和/或文本特征相对应。

S312：利用注意力机制对全连接图的邻近节点特征加权求和后通过非线性激活函数更新节点特征，加权求和的注意力系数通过多头点积计算获得并使用Softmax函数进行归一化。

S313：基于更新后的全连接图，生成图注意力特征。

具体地，首先，给定一个全连接图，其中，节点集/>是对应的图片特征或者文本特征，需要说明的是，这里的图片特征可以是初始图片特征经过第一图片编码器后输出的第一图片特征，或者文本特征可以是初始文本特征经过第一文本编码器后输出的第一文本特征；/>是边集。

其次，在利用注意力机制对全连接图的邻近节点特征加权求和后通过非线性激活函数更新节点特征时，计算注意力系数是关键，本发明中一个实施例中，注意力系数定义为，其中/>和/>是可学习的参数；本发明中一个实施例中使用Softmax函数对注意力系数进行归一化/>。具体地，在一种实施例的实现方式中，可以使用多头点积来计算注意力系数，一个头点积，其中/>表示串联，投影是参数矩阵和/>。在一个实施例中，可以采用个平行注意力层，因此/>等于/>。随后使用非线性激活函数，计算最终的输出特征/>，其中/>是图中节点/>的邻域。在一个实施例中还可以添加批量归一化以加速训练，即/>，/>是批处理归一化层。

最后，完成注意力对象关系的增强即经过对象增强的全连接图构造为，其中/>是区域特征，/>定义为亲和矩阵的边缘集：/>。需要说明的是，为了更精确地匹配图像和文本，最近的区域匹配方法强调了学习原始图像中对象关系的重要性，这个过程实际上是通过图注意网络力来捕捉区域关系。

在一些实施例中，如图4所示，图片区域整合网络和/或文本区域整合网络的处理过程包括：

S411：将初始图片特征和/或初始文本特征分别经第一图片编码器和/或第一文本编码器获得第一图片特征和/或第一文本特征。

S412：输入第一图片特征和/或第一文本特征至图注意力特征生成模块，以获得图片图注意力特征和/或文本图注意力特征。

S413：依据图片图注意力特征和/或文本图注意力特征经过平均池化处理后获得的图片表示和/或文本表示，基于铰链的三元组排名损失函数，获得对图注意力特征生成模块进行训练的第一损失函数。

在一些实施例中，对于图片特征，当如图1的图文检索模型中图片区域整合网络的第一图片编码器使用Resnet101网络时，初始图片特征变换为，/>对应于/>的变换特征；同时，为了将特征嵌入到共享的潜在空间中，配置了全连接层得到提取的第一图片特征/>，用以表示图片对象的区域特征；其中，其中/>是图片权重矩阵，/>是偏置，/>，其中/>是嵌入维度。

在一些实施例中，对于文本特征，当如图1的图文检索模型中文本区域整合网络的第一文本编码器使用BERT-BASE编码器时，可以设定BERT-BASE编码器有12层，提取最后一层的输出作为单词表示，因此/>变换为/>，为了将特征嵌入到共享的潜在空间中，配置了全连接层得到提取的第一文本特征/>，用以表示文本对象的单词语义特征；其中，其中/>是单词权重矩阵，/>是偏置，/>，其中/>是嵌入维度。

当获得了第一图片特征和第一文本特征后，将该第一图片特征和该第一文本特征分别输入图片区域整合网络的图注意力特征生成模块和文本区域整合网络的图注意力特征生成模块，以便分别获得图片图注意力特征和文本图注意力特征；其中/>表示图注意力特征生成模块的输出。

在获得图片图注意力特征和文本图注意力特征后，即可进一步获得图片表示和文本表示。在一种实施例的实现方式中，可分别对图片图注意力特征、文本图注意力特征经过平均池化处理，即获得图片表示为/>，获得文本表示为，其中/>表示平均池化。

在一些实施例中，在获得图片表示和文本表示/>后，可以采用基于铰链的三元组排名损失函数，来训练共享的潜在空间的学习过程。损失函数尝试查找最难的负数，这些负数与正数和基本真值查询形成三元组，构成第一损失函数，定义为；其中，/>表示为相似性函数，采用模型中的余弦相似性；/>；/>是边距。

在一些实施例中，基于图1所示的图文检索模型中生成对抗网络的结构示意图，该生成对抗网络对可见类型数据进行处理过程，如图5所示，包括：

S511：将初始图片特征经第二图片编码器获得的第二图片特征与初始文本特征经第二文本编码器获得的第二文本特征，输入至多模态编码器，以获得多模态特征；其中第二图片特征包括图片类型标签，第二文本特征包括文本类型标签，多模态特征包括预设多模态类型标签。

S512：将多模态特征、图片图注意力特征和多模态特征输入至特征融合生成模块进行融合，以获得第一图片生成特征和第一文本生成特征。

S513：将第二图片特征与第一图片生成特征、第二文本特征与第一文本生成特征分别输入至鉴别器，以获得最终图片特征和最终文本特征。

S514：依据第二图片特征、第二文本特征、第一图片生成特征和第一文本生成特征，基于对抗性损失函数，获得通过可见类型数据对生成对抗网络进行训练的第二损失函数。

具体地，在一个实施例中，第二图像编码器可以采用12层视觉Transformer ViT-B/16模型，使用在ImageNet-1k上预训练的权重对其进行初始化后，将初始图片特征中包括的区域特征线性嵌入并馈送到Transformer 模型中，同时以将位置嵌入和图片分类标识一并嵌入。此时，第二图像编码器输出是图片隐藏状态向量/>的列表，每个向量对应于一个区域对象，包括图片分类标识/>的隐向量/>，以获得第二图片特征。在一个实施例中，第二文本编码器可以采用Transformer ViT-B/16模型，将初始图片特征编码为隐藏状态向量/>的列表，包括图片分类标识/>的隐向量/>，以获得第二文本特征。

具体地，将上述操作获得的第二图片特征和第二文本特征，进一步输入多模态编码器以融合模态内和模态间信息。在一个实施例中，可以使用单独的来融合图片和文本隐藏状态。具体地，对/>和/>中的每个隐藏状态向量应用两个学习的线性投影，并将它们连接成一个列表，并添加一个附加的多模态标识/>。该串联列表被馈送到多模态编码器/>中，允许在投影的单峰图像和文本表示之间交叉关注，并将两种模式融合在一起。因此，多模态编码器的输出是隐藏状态/>的列表，每个隐藏状态对应于来自/>或/>的单峰向量，包括多模态标识/>的隐向量/>，以获得多模态特征。

具体地，对于特征融合生成模块，分别将前述获得的多模态特征分别与图片图注意力特征、文本图注意力特征通过进行融合，以分别对初始图片特征、初始文本特征进行重建。在一个实施例中，将图片图注意力特征和多模态特征融合，得到第一图片生成特征，即；同理，将文本图注意力特征和多模态特征融合，得到第一文本生成特征，即/>；其中，/>和/>分别是图片生成特征和文本生成特征，/>表示融合时为串联操作。

最后，通过向鉴别器馈送第一图片特征和第一文本特征对应的隐向量，以及第一图片生成特征和第一文本生成特征/>，来共同制定生成对抗网络的对抗性损失。

在一些实施例中，考虑可见类型图文数据的对抗性损失的公式为：。

在一些实施例中，为了减少生成的未见类型和真正的未见类型之间的域转移，将本申请的图文检索模型扩展到转导设置。基于图1所示的图文检索模型中生成对抗网络的结构示意图，生成对抗网络对未见类型数据进行处理过程，如图6所示，包括：

S611：获取包括可见类型图文对数据集和未见类型图文对数据集，可见类型图文对数据集具有类别标签。

S612：将未见类型初始图片特征经第二图片编码器获得的第三图片特征，以及，将未见类型初始文本特征经第二文本编码器获得的第三文本特征。

S613：将未见类型数据集与可见类型数据集中特定的具有类别标签的文本特征和图片特征分别融合，获得未见类型图片样本特征和未见类型文本样本特征。

S614：将第三图片特征与未见类型图片样本特征、第三文本特征与未见类型文本样本特征分别输入至鉴别器，以获得最终图片特征和最终文本特征。

S615：依据第三图片特征、未见类型图片样本特征、第三文本特征和未见类型文本样本特征，基于对抗性损失函数，获得通过未见类型数据对生成对抗网络进行训练的第三损失函数。

具体地，给定数据集，其中/>、/>分别是第/>个样本的图、文本。在这里，/>表示不同类别的集合。将整个类别分为两组/>和/>，其中，/>。根据/>和/>的集合，可以得到训练集/>和测试集/>。除了使用集合/>来训练网络之外，还使用集合/>，但不使用图片或者文本的实际类别标识。

对于未见类型的图片和文本，使用第二图片编码器和第二文本编码器提取第三图片特征和第三文本特征/>。然后，通过将未见类型词嵌入/>与文本特征/>和图片特征/>相结合，可以生成未见类型图片样本特征/>和未见类型文本样本特征/>。

最后，通过向鉴别器馈送第三图片特征和第三文本特征对应的隐向量，以及未见类型图片样本特征和未见类型文本样本特征/>，来共同制定生成对抗网络的对抗性损失。

在一些实施例中，由图注意力特征生成模块和生成对抗网络联合对图文检索模型进行训练。

在一些实施例中，图文检索模型的目标损失函数为第一损失函数与第二损失函数的和，公式表示为。

在一些实施例中，图文检索模型的目标损失函数为第一损失函数、第二损失函数与第三损失函数的和，其中第二损失函数与第三损失函数的重要性权重的和等于1，公式表示为，其中，/>是重要性权重。

在一些实施例中，基于图文检索模型的处理，输出图文检索结果，包括：依据最终图片特征和最终文本特征，获得图文检索结果。

通过将获得的初始图片特征和初始文本特征，输入至经训练的图文检索模型进行处理，输出图文检索结果；该图文检索模型包括图片区域整合网络、文本区域整合网络和生成对抗网络，图片区域整合网络和文本区域整合网络包括图注意力特征生成模块，生成对抗网络能够融合图片区域整合网络生成的图片图注意力特征和文本区域整合网络生成的文本图注意力特征，以生成最终图片特征和最终文本特征。本申请通过图注意力机制强化了区域特征和全局特征的联合学习，通过生成对抗网络融合包含图注意力特征在内的图文特征，能够同时对可见类型和未见类型图文进行识别，可以有效提高图文检索结果的准确性。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图7是本申请实施例提供的一种基于图注意力和生成对抗网络的图文检索装置的示意图。如图7所示，该基于图注意力和生成对抗网络的图文检索装置包括：

初始特征获取模块701，能够获得初始图片特征和初始文本特征。

图文检索处理模块702，能够输入初始图片特征和初始文本特征至经训练的图文检索模型进行处理；其中，图文检索模型包括图片区域整合网络、文本区域整合网络和生成对抗网络；图片区域整合网络和文本区域整合网络包括图注意力特征生成模块，生成对抗网络能够融合图片区域整合网络生成的图片图注意力特征和文本区域整合网络生成的文本图注意力特征，以生成最终图片特征和最终文本特征。

检索结果输出模块703，能够基于图文检索模型的处理，输出图文检索结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图8是本申请实施例提供的电子设备8的示意图。如图8所示，该实施例的电子设备8包括：处理器801、存储器802以及存储在该存储器802中并且可在处理器801上运行的计算机程序803。处理器801执行计算机程序803时实现上述各个方法实施例中的步骤。或者，处理器801执行计算机程序803时实现上述各装置实施例中各模块/单元的功能。

电子设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备8可以包括但不仅限于处理器801和存储器802。本领域技术人员可以理解，图8仅仅是电子设备8的示例，并不构成对电子设备8的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器801可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器802可以是电子设备8的内部存储单元，例如，电子设备8的硬盘或内存。存储器802也可以是电子设备8的外部存储设备，例如，电子设备8上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器802还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器802用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于图注意力和生成对抗网络的图文检索方法，其特征在于，包括：

获得初始图片特征和初始文本特征；

基于所述图文检索模型的所述处理，输出图文检索结果；

其中，所述图文检索模型包括图片区域整合网络、文本区域整合网络和生成对抗网络；所述图片区域整合网络和所述文本区域整合网络均包括图注意力特征生成模块，所述生成对抗网络能够融合所述图片区域整合网络生成的图片图注意力特征和所述文本区域整合网络生成的文本图注意力特征，以生成最终图片特征和最终文本特征；

所述图注意力特征生成模块的工作过程包括：

基于输入的图片和/或文本特征构造全连接图，所述全连接图的节点与图片和/或文本特征相对应；

利用注意力机制对所述全连接图的邻近节点特征加权求和后通过非线性激活函数更新所述节点特征，所述加权求和的注意力系数通过多头点积计算获得并使用Softmax函数进行归一化；

基于更新后的所述全连接图，生成所述图注意力特征；

所述图片区域整合网络和/或所述文本区域整合网络还分别包括第一图片编码器和/或第一文本编码器，所述第一图片编码器包括Resnet101网络，所述第一文本编码器包括BERT-BASE编码器；所述第一图片编码器和/或所述第一文本编码器包括全连接层；

和/或，

所述图片区域整合网络和/或所述文本区域整合网络的处理过程包括：

将所述初始图片特征和/或所述初始文本特征分别经所述第一图片编码器和/或第一文本编码器获得第一图片特征和/或第一文本特征；

输入所述第一图片特征和/或所述第一文本特征至所述图注意力特征生成模块，以获得所述图片图注意力特征和/或所述文本图注意力特征；

依据所述图片图注意力特征和/或所述文本图注意力特征经过平均池化处理后获得的图片表示和/或文本表示，基于铰链的三元组排名损失函数，获得对所述图注意力特征生成模块进行训练的第一损失函数；

所述生成对抗网络包括第二图片编码器、第二文本编码器、多模态编码器、特征融合生成器和鉴别器；和/或，生成对抗网络对可见类型数据进行处理过程，包括：

将所述初始图片特征经所述第二图片编码器获得的第二图片特征与所述初始文本特征经所述第二文本编码器获得的第二文本特征，输入至所述多模态编码器，以获得多模态特征；其中所述第二图片特征包括图片类型标签，所述第二文本特征包括文本类型标签，所述多模态特征包括预设多模态类型标签；

将所述多模态特征、所述图片图注意力特征和所述多模态特征输入至所述特征融合生成模块进行融合，以获得第一图片生成特征和第一文本生成特征；

将所述第二图片特征与所述第一图片生成特征、所述第二文本特征与所述第一文本生成特征分别输入至所述鉴别器，以获得所述最终图片特征和所述最终文本特征；

依据所述第二图片特征、所述第二文本特征、所述第一图片生成特征和所述第一文本生成特征，基于对抗性损失函数，获得通过可见类型数据对所述生成对抗网络进行训练的第二损失函数；

生成对抗网络对未见类型数据进行处理过程，包括：

获取包括可见类型图文对数据集和未见类型图文对数据集，所述可见类型图文对数据集具有类别标签；

将未见类型初始图片特征经所述第二图片编码器获得的第三图片特征，以及，将未见类型初始文本特征经所述第二文本编码器获得的第三文本特征；

将未见类型数据集与可见类型数据集中特定的具有类别标签的文本特征和图片特征分别融合，获得未见类型图片样本特征和未见类型文本样本特征；

将所述第三图片特征与所述未见类型图片样本特征、所述第三文本特征与所述未见类型文本样本特征分别输入至所述鉴别器，以获得所述最终图片特征和所述最终文本特征；

依据所述第三图片特征、所述未见类型图片样本特征、所述第三文本特征和所述未见类型文本样本特征，基于对抗性损失函数，获得通过未见类型数据对所述生成对抗网络进行训练的第三损失函数。

2.根据权利要求1所述的方法，其特征在于，由所述图注意力特征生成模块和所述生成对抗网络联合对所述图文检索模型进行训练；和/或，

所述图文检索模型的目标损失函数为所述第一损失函数与所述第二损失函数的和；或者，所述图文检索模型的目标损失函数为所述第一损失函数、所述第二损失函数与所述第三损失函数的和，其中所述第二损失函数与所述第三损失函数的重要性权重的和等于1。

3.根据权利要求1所述的方法，其特征在于，所述基于所述图文检索模型的所述处理，输出图文检索结果，包括：依据所述最终图片特征和所述最终文本特征，获得图文检索结果。

4.一种基于图注意力和生成对抗网络的图文检索装置，用于实现权利要求1至3任一项所述的方法，其特征在于，包括：

其中，所述图文检索模型包括图片区域整合网络、文本区域整合网络和生成对抗网络；所述图片区域整合网络和所述文本区域整合网络均包括图注意力特征生成模块，所述生成对抗网络能够融合所述图片区域整合网络生成的图片图注意力特征和所述文本区域整合网络生成的文本图注意力特征，以生成最终图片特征和最终文本特征。

5.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器在执行所述计算机程序时，实现如权利要求1至3中任一项所述方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至3中任一项所述方法的步骤。