CN115033670A

CN115033670A - 多粒度特征融合的跨模态图文检索方法

Info

Publication number: CN115033670A
Application number: CN202210629686.5A
Authority: CN
Inventors: 王笛; 田玉敏; 万波; 田佳博; 王泉; 罗雪梅; 王义峰; 吴自力; 赵辉; 潘蓉
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-09-09

Abstract

本发明公开了一种多粒度特征融合的跨模态图文检索方法，解决了现有跨模态检索方法不能全面提取模态数据的信息，且不能在跨模态数据间进行细粒度信息交互的技术问题，实现包括：建立图文检索数据集；图文特征提取；构建基于注意力的细粒度跨模态交互网络和多粒度特征融合网络；使用联合损失函数对交互网络和融合网络进行训练，完成图文的双向检索。本发明使用预训练模型提取特征，用特征融合网络学习更强大的特征表示，使得本发明构建的跨模态检索模型在双路编码结构下具有较高的检索效率和精度，本发明检索精度和效率高，应用于人工智能领域，如信息推荐和信息检索等。

Description

多粒度特征融合的跨模态图文检索方法

技术领域

本发明属于人工智能技术领域，主要涉及跨模态图文检索，具体是一种多粒度特征融合的跨模态图文检索方法，用于对不同模态的数据进行匹配，以在海量信息中为用户提供精准的多模态检索服务。

背景技术

信息时代，计算机发展迅速，网上购物、网上工作和网上学习也成为人们生活的常态。越来越多的用户参与到与互联网的交互过程，促进了文本、图像、音视频等多种媒体数据的增长和跨模态数据的表示。跨模态检索是指用一种模态信息全方位获取该对象其他模态的信息，同时处理不同模态的数据，寻找它们的内在关联并完成相似性的度量。具体而言是指利用其中一种数据模态作为查询对象来检索具有相似语义的另一种数据模态的内容，跨模态检索技术能有效满足人们对信息检索方式多样化的需要，更为方便的为用户提供服务。

现有很多跨模态检索网络模型存在精度不高，或不能很好的学习单模态数据的高级语义特征以及不能捕获不同模态数据之间的高层语义关系。现有的图像文本检索的主要方法分为三类，公共特征空间学习法、跨模态相似性度量法和跨模态预训练模型微调法。

公共特征空间学习法采用两个独立的深度编码网络分别对图像和文本进行编码，投影到相同的特征空间进行相似性度量。计华、王冠华等人在其申请专利“一种基于图正则化与模态独立的跨模态数据检索方法及系统”中通过定义特征投影矩阵的图正则化项来优化目标函数，不同模态数据投影到公共子空间来进行相似度计算。Yiling Wu,ShuhuiWang,Guoli Song等人在其论文“Learning Fragment Self-Attention Embeddings forImage-Text Matching”中通过自注意力机制分别学习图像和文本的模态内数据相关性增强语义嵌入。上述现有技术虽然利用了样本的细粒度信息但是并未在模态间进行信息交互，且没有充分利用样本的全局语义信息，因此导致该类方法的检索性能不佳。

跨模态相似性度量方法通过隐层去学习相似性的计算方法。王文敏、夏雅娴等人在其申请专利“一种基于双语义空间的对抗性跨媒体检索方法”中分别保留不同模态内部特征，通过对抗网络挖掘数据中的语义信息来实现跨膜检索。程起敏、周玉琢等人在其申请专利“一种基于门控注意力机制和门控机制的图文检索方法和系统”中通过将两种模态的数据互相作为监督信息，并引入门控机制去过滤不必要的信息，从而获取具有通用语义和准确注意力的模态特征。Haiwen Diao,Ying Zhang,Lin Ma,Huchuan Lu等人在发表论文“Similarity Reasoning and Filtration for Image-Text Matching”中使用相似性向量代替相似性标量，捕获更加细节的模态间的关系。上述现有方法学习了新的相似性度量方法，充分进行了模态间的交互，因此导致此类方法虽然有较好的检索性能，但是模型复杂，检索效率低下，实际应用困难。

在跨模态预训练模型的发展中，YenChun Chen,Linjie Li,Licheng Yu等人2020年在其发表论文“Uniter:Universal image text representation learning”中使用三个预训练任务和更大的数据集学习通用的视觉语言表示，在9个下游任务上1表现优异。FeiYu,Jiji Tang,Weichong Yin等人在2021年发表论文“ERNIE-ViL:Knowledge EnhancedVision Language Representations Through Scene Graph”中首次把场景图知识加入到预训练模型当中，更精准的把握图像文本的细粒度对齐信息。然而这些跨模态预训练模型虽然在数据集上表现出色，但训练时间漫长，模型更为庞大，实际应用极为不便。

综上，现有的基于深度学习的跨模态检索方法存在忽略了数据不同粒度信息之间的关系问题，且在追求高精度性能的同时往往导致模型复杂，检索效率低下，实际应用难以部署。

发明内容

本发明针对现有技术存在的不足和问题，提出一种能够融合单模态下不同粒度的语义信息，并且能够在细粒度层次上进行模态交互的多粒度特征融合的跨模态图文检索方法。

本发明是一种多粒度特征融合的跨模态图文检索方法，其特征在于，包括以下步骤：

(1)建立图文检索数据集：收集图像和其对应的文字描述作为样本，每个样本是由一张图片和与图片对应的文字描述共同组成，简称为图像文本对样本；建立跨模态检索数据集，分为训练集、验证集与测试集；

(2)样本的图文特征提取：对训练集、验证集和测试集所有样本中的每张图片，使用Faster-RCNN提取每张图片的k个区域特征，即局部特征，使用预训练模型Vilt提取每张图片的全局特征；对于样本中的图像所对应的文字描述，使用Bert提取文字描述文本中每个单词的特征，得到局部特征，在局部特征后连接自动编码器GRU，进行池化，得到文字描述的全局特征；通过对每个样本中图像文本对的各自的特征提取，分别得到训练集、验证集和测试集中所有的样本的图像和文字描述各自对应的局部特征和全局特征，并分别保存，每个数据集包含4个特征文件，总共为12个特征文件；

(3)构建基于注意力的细粒度跨模态交互网络：构建基于注意力机制的细粒度跨模态交互网络，交互网络输入为一个样本中的图像和文字描述各自的局部特征，交互网络依次连接有用于图像和文字描述的联合特征表示的全连接层、基于注意力的特征交互层、图像和文字描述的交互特征输出层，特征交互层用于捕捉数据内部的相关性，进行跨模态数据的细粒度交互，将图像和文字描述的交互特征输出层的输出特征作为交互网络输出，交互网络输出即为细粒度跨模态交互后的图像和文字描述各自的局部特征；

(4)构建多粒度特征融合网络：构建多粒度特征融合网络对图像和文字描述的不同粒度的特征进行融合，融合网络输入为并行输入的四个特征，即图像和文字描述各自的局部特征和全局特征，其中，局部特征为跨模态交互网络的输出，全局特征输入来自训练集的全局特征文件；多粒度特征融合网络包括图像特征融合和文本特征融合两个子网络，两个子网络的并行输出即为融合网络输出；两个子网络并行独立存在，图像特征融合子网络将图像的全局特征嵌入到与局部特征相同的维度之后，通过注意力机制来平衡全局特征和局部特征的相对贡献，最后平均池化后得到最终的图像嵌入I。文本特征融合子网络的将文字描述的全局特征嵌入到与局部特征相同的维度之后，用全局特征去引导局部特征，最后平均池化后得到最终的文本嵌入T；图像嵌入I为图像特征融合子网络的输出，文本嵌入T为文本特征融合子网络的输出，两个输出为多粒度特征融合网络的并行输出；

(5)使用联合损失函数同时对所构建的交互网络和融合网络进行训练：定义联合损失函数为三元组损失、角损失和文本生成损失之和，使用联合损失函数对跨模态交互网络和多粒度特征融合网络同时进行训练，通过角损失的影响因子θ来约束角损失对整个损失的影响，增大正负样本之间的距离，更新网络参数

(6)完成图像和文本的双向检索：使用图像去检索对应的文字描述时，将测试集中的每张图像与其对应的文字描述作为样本输入到网络模型中得到图像和文字描述各自的编码表示，对于每张图像，使用欧氏距离函数计算与所有文字描述的相似度大小，距离越小则相似度越高，最相似的特征所对应的文本描述即为检索结果；使用文字描述去检索对应的图像时，将测试集所有文字描述与测试集中所有的图像作为样本输入到网络模型中得到文字描述和图像各自的编码表示，对于每句文字描述，同样使用欧氏距离函数计算与所有图像的相似度大小，最相似的图像特征所对应的图像即为检索结果；统计测试集中所有图像和文字描述的检索准确率，完成多粒度特征融合的跨模态图文检索；

本发明解决了跨模态检索中现有模型不能够全面提取模态数据的信息，并且不能在不同模态的数据之间进行细粒度的信息交互的技术问题。

本发明与现有技术相比有以下优点：

提高了检索精度：相比于现有的跨模态检索方法，本发明通过构建多粒度跨模态交互网络不仅在细粒度层次进行了不同模态之间的信息交互，同时通过构建多粒度特征融合网络对两个模态下的不同粒度的特征进行特征融合，使得模型学习到的图像和文本嵌入能够包含全局语义概念和局部语义信息，表达的信息更加全面准确，不同模态的数据表示在特征空间内的距离更近，从而提高检索精度。

加快了检索效率：本发明使用跨模态预训练模型提取特征，虽然进行了跨模态交互，但仍然使用简单的欧氏距离作为相似性度量，因此，模型属于公共特征空间表示学习法，同时，联合损失函数的使用也加快了模型训练，使得本发明的模型在保持检索性能的同时，相比于跨模态相似性度量方法又具有较高的检索效率。

附图说明

图1是本发明的流程框图；

图2是本发明的数据流图；

图3是本发明的细粒度跨模态信息交互模块结构示意图；

图4是本发明的图像多粒度特征融合网络的结构示意图；

图5是本发明的文本多粒度特征融合网络的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

结合附图1对本发明实现方法做具体描述。

实施例1

在现有的跨模态检索方法中，计华、王冠华等人在其申请专利“一种基于图正则化与模态独立的跨模态数据检索方法及系统”中通过定义特征投影矩阵的图正则化项来优化目标函数，不同模态数据投影到公共子空间来进行相似度计算，该方法未进行跨模态之间的信息交互，检索精度不高。王文敏、夏雅娴等人在其申请专利“一种基于双语义空间的对抗性跨媒体检索方法”中分别保留不同模态内部特征，通过对抗网络挖掘数据中的语义信息来实现跨模态检索，该方法虽然充分挖掘了语义信息，但模型复杂，检索效率较低。

针对上述存在问题，本发明通过设计基于注意力机制的细粒度跨模态交互网络与图像和文本描述的多粒度特征融合网络，在细粒度层次交互不同模态的数据，融合单模态下数据不同粒度的语义信息，学习更好的图像和文本特征，以完成跨模态的双向检索任务，解决了先前工作不能进行模态交互和模型复杂的问题。

本发明是一种多粒度特征融合的跨模态图文检索方法，参见图1，图1是本发明的流程框图，包括有以下步骤：

(1)建立图文检索数据集：建立图文检索数据集：收集图像和其对应的文字描述作为样本，每个样本是由一张图片和与图片对应的文字描述共同组成，简称为图像文本对样本；建立跨模态检索数据集，将跨模态检索数据集分为训练集、验证集与测试集。

本例中是从MS-COCO和Flickr网站收集图像和其对应的文字描述作为样本，每个样本是由一张图片和与图片对应的英文文字描述共同组成，简称为图像文本对样本。总数据共3万对图像文本对，以此建立跨模态检索数据集，分为训练集2万对、验证集1千对与测试集1千对。

(2)样本的图文特征提取：样本的图文特征提取：对训练集、验证集和测试集所有样本中的每张图片，使用Faster-RCNN提取每张图片的k个区域特征，即局部特征，使用预训练模型Vilt提取每张图片的全局特征。对于样本中的图像所对应的文字描述，使用Bert提取文字描述文本中每个单词的特征，得到局部特征，在局部特征后连接门控循环单元GRU，进行池化，得到文字描述的全局特征。本发明通过对每个样本中图像文本对的各自的特征提取，分别得到训练集、验证集和测试集中所有的样本的图像和文字描述各自对应的局部特征和全局特征，并分别保存，每个数据集包含4个特征文件，总共为12个特征文件。例如训练集包含图像的全局特征文件和局部特征文件和文字描述的全局特征文件和局部特征文件，共4个特征文件，三个数据集总共有12个特征文件。

在本例中，对样本中的每张图片，使用Faster-RCNN提取每张图片的36个区域特征作为局部特征，特征维度为2048；使用预训练模型Vilt提取特征作为全局特征，特征维度为2048；对于样本中的每张图片所对应的文字描述，使用Bert提取每个单词的特征作为局部特征，特征维度为768，单词个数最大设置为32，在局部特征后连接门控循环单元GRU，池化后得到特征作为文字描述的全局特征维度为256。通过对样本中图像文本对的各自的特征提取，即得到了图像的一个全局特征和36个局部特征和文字描述的一个全局特征和32个局部特征。

(3)构建基于注意力的细粒度跨模态交互网络：为了加强数据细粒度层次上的模态交互，构建基于注意力机制的细粒度跨模态交互网络，交互网络输入为一个样本中的图像和文字描述各自的局部特征，交互网络依次连接有用于图像和文字描述的联合特征表示的全连接层、基于注意力的特征交互层、图像和文字描述的交互特征输出层，特征交互层用于捕捉数据内部的相关性，进行跨模态数据的细粒度交互，将图像和文字描述的交互特征输出层的输出特征作为交互网络输出，交互网络输出即为细粒度跨模态交互后的图像和文字描述各自的局部特征。

在本例中，交互网络输入为一个样本中的图像和文字描述各自的局部特征，将图像和文字描述各自的局部特征输入到交互网络之前，先通过全连接层投影到相同的维度空间中后进行串联，即将图像由2048维降到256维，拼接图像和文本特征得到256维的联合特征，将联合特征输入到特征交互层中，交互层依次连接有多头注意力层，第一正则化层，全连接层和第二正则化层，作为多头注意力层的输入，多头注意力层由16个注意力机制组成，用于捕捉数据内部的相关性，将多头注意力层的输出经过第一正则化层进行特征筛选，减小模型复杂度，再将第一正则化层的输出经过全连接层以减小特征维度，再次经过第二正则化层进行特征筛选，输出交互后的联合特征。通过特征输出层即得到图像和文本各自的交互后的局部特征。本发明构建的基于注意力的细粒度跨模态交互网络输出即为特征输出层输出的图像和文字描述各自的局部特征，即36个图像的局部特征和32和文本的局部特征，维度依旧为256。

(4)构建多粒度特征融合网络：构建多粒度特征融合网络，为了让最终的图像和文字描述的嵌入即具有全局语义信息，又包含丰富的细粒度信息，构建多粒度特征融合网络对图像和文字描述的不同粒度的特征进行融合，融合网络输入为并行输入的四个特征，即图像和文字描述各自的局部特征和全局特征，其中，局部特征为跨模态交互网络的输出，全局特征输入来自训练集的全局特征文件；多粒度特征融合网络包括图像特征融合和文本特征融合两个子网络，两个子网络的并行输出即为融合网络输出；两个子网络并行独立存在，图像特征融合子网络将图像的全局特征嵌入到与局部特征相同的维度之后，通过注意力机制来平衡全局特征和局部特征的相对贡献，输出为最终的图像嵌入I；文本特征融合子网络的将文字描述的全局特征嵌入到与局部特征相同的维度之后，用全局特征去引导局部特征，输出为最终的文本嵌入T；图像嵌入I为图像特征融合子网络的输出，文本嵌入T为文本特征融合子网络的输出，两个输出为多粒度特征融合网络的并行输出；

本例中，多粒度特征融合网络包括图像特征融合和文本特征融合两个子网络：图像特征融合子网络首先将图像的全局特征经过全连接层嵌入到与局部特征相同的维度，即由2048维降到256维，再通过注意力机制平衡全局特征和局部特征的相对贡献，即将全局特征与局部特征进行拼接，特征张量大小为37*256，拼接后使用softmax函数进行激活，将激活后的概率分布再与局部特征进行点积操作，得到经过全局特征引导后的局部特征，平均池化后得到最终的图像嵌入I；文本特征融合子网络首先将文字描述的全局特征经过全连接层嵌入到与局部特征相同的维度，即由768维降到256维，将两种特征进行点积操作，再正则化特征防止过拟合，将正则化后的特征再次与局部特征进行点积，得到经全局特征引导的局部特征，平均池化后得到最终的文本嵌入T；图像嵌入I为图像特征融合子网络的输出，文本嵌入T为文本特征融合子网络的输出，两个输出为多粒度特征融合网络的并行输出。

参见图2，图2是本发明的数据流图，本发明分别构建了两个网络，一个是基于注意力的细粒度跨模态交互网络，在局部层次上进行跨模态信息交互；另一个是多粒度特征融合网络，融合数据不同粒度的语义信息，两个网络共同形成本发明的跨模态检索模型。

(5)使用联合损失函数同时对步骤(3)和(4)所构建的基于注意力的跨模态交互网络和多粒度特征融合网络进行训练：为了能够让两个网络学习到更好的图像和文字描述的最终嵌入，定义联合损失函数为三元组损失，角损失和文本生成损失之和，使用联合损失函数对跨模态交互网络和多粒度特征融合网络同时进行训练，通过角损失的影响因子θ来约束角损失对整个损失的影响，增大正负样本之间的距离，更新网络参数。本例中，角损失的影响因子θ为0.5，模型训练迭代次数为30次，经过训练后的模型便能够很好的嵌入图像和文本特征。

(6)完成图像和文本的双向检索：对于测试集中的所有图像和文字描述样本，完成使用图像去检索文字描述任务和使用文字描述去检索对应的图像任务：使用图像去检索对应的文字描述：将测试集中的每一张待检索图像与测试集中的所有文字描述分别作为样本输入到网络模型中得到图像和文字描述各自的编码表示，使用欧氏距离函数计算相似度大小，即cos值，值越小则表示相似度越高，最相似的特征所对应的文本描述即为检索结果；使用文字描述去检索对应的图像：将测试集中每一句待检索的文字描述与测试集中所有的图像作为样本输入到网络模型中得到文字描述和图像各自的编码表示，同样使用欧氏距离函数计算相似度大小，最相似的图像特征所对应的图像即为检索结果。对于每个图片或文本，对检索结果进行降序排序，根据排序结果同时计算前1个、前5个、前10个结果中存在正确结果的概率，得到三个百分比值即召回率，作为模型性能评价指标，完成多粒度特征融合的跨模态图文检索。

本发明给出了一个图文检索的整体技术方案，构建基于注意力的细粒度跨模态交互网络来进行图像和文本的细粒度信息交互，构建图像和文本的多粒度特征融合网络来捕获单模态下图像和文本的不同粒度的语义信息，同时使用三元组损失、角损失和文本生成损失来联合训练网络，加快网络的训练速度。本发明通过跨模态交互网络来解决现有方法不能进行信息交互的问题，通过多粒度特征融合网络来解决现有方法不能获取全面的语义特征问题。此外，使用跨模态预训练模型提取图像特征，来保证模型在保持检索效率的情况下具有更高的检索性能，解决现有的模型复杂效率低下的问题。本发明主要应用于跨模态检索中的图文检索领域，既使用图像检索与其语义对应的文本描述，或利用文本检索其所对应的图片，实现更高效率和高精度的图文检索。

实施例2

多粒度特征融合的跨模态图文检索方法同实施例1，步骤(3)所述的构建基于注意力的细粒度跨模态交互网络，参见图3，图3是本发明的细粒度跨模态信息交互模块结构示意图，包括有如下步骤：

3a)构建用于图像和文字描述的联合特征表示的全连接层：构建的基于注意力的细粒度跨模态交互网络，交互网络的输入为一个样本中的图像和文字描述各自的局部特征，首先构建用于图像和文字描述的联合特征表示的全连接层，该全连接层由并行的两个不同的全连接层构成，两个并行的全连接层分别用于图像和文字描述两个模态的嵌入，将样本中的图像局部特征和对应文字描述的局部特征并行嵌入到相同的语义空间，在该语义空间中，图像的第i个局部区域特征表示为v_i，图像局部特征V表示为：

其中，i表示图像局部区域特征v的序号，r表示局部区域的总个数；文字描述的第j个单词特征表示为w_j，文字描述的局部特征W表示为W＝[w₁,w₂,…,w_r],w_j∈R^q×D，其中，j表示局部区域特征w的序号，q表示文字描述中的单词总个数，将局部特征V和W串联后得到联合特征Z：

Z＝concat[V,W]

3b)构建基于注意力的特征交互层：构建用于将联合特征进行细粒度模态交互的特征交互层，该特征交互层依次连接有多头注意力层、第一正则化层、前馈神经网络层、第二正则化层，前两层由多头注意力层和第一正则化层构成，其输入为联合特征Z，输出为Y，后两层为前馈神经网络层和第二正则化层，后两层将Y作为输入：

z_k＝LayerNorm(y_k+FFN(y_k)),k＝1…,r+q.

其中，y_k是Y中的第k个特征，z_k为交互后联合特征的第k个输出特征，即是特征交互层的输出；

3c)构建图像和文字描述的交互特征输出层：将特征交互层的输出作为交互后的图像和文本特征，该层输出为交互后联合特征的按位截取，得到交互后的图像特征

和文字描述特征

其中，

表示交互后的图像特征，

表示交互后的文字描述特征，交互后的图像特征和文字描述特征即为基于注意力的细粒度跨模态交互网络的输出。

针对现有方法不能在细粒度层次上进行跨模态信息交互，本发明构建基于注意力的跨模态交互网络，使用注意力机制在细粒度层次上进行图像和文本的信息交互，让一个模态的数据可以学习到另一个模态的信息，减小了不同模态的语义鸿沟，进行了跨模态对齐。

实施例3

多粒度特征融合的跨模态图文检索方法同实施例1-2，步骤(4)所述的构建多粒度特征融合网络，包括有如下步骤：

4a)构建图像特征融合子网络：通过注意力机制平衡全局特征和局部特征的相对贡献，在多粒度特征融合网络中，首先构建图像特征融合子网络，参见图4，图4是本发明的图像多粒度特征融合网络的结构示意图，该子网络由两层连接的全连接层和CRGN网络层连接，图像特征子网络的输入为并行的图像的局部特征与全局特征，输出为最终的图像嵌入I,所构建的网络可表示如下：

V”＝FC(FC(V'))

其中，concat表示向量的拼接，⊙表示矩阵点积，V'表示图像的全局特征，V”为经过两个全连接层的图像的全局特征，FC表示全连接层，mean表示矩阵的列平均池化，Norm表示二范数正则化。

是图像的局部区域特征，t作为注意力分数，I为图像特征融合子网络最终得到的图像嵌入；

4b)构建文本特征融合子网络：为了能让最终的文本嵌入包含每个单词的语义信息，同时又包含整个语句的整体语义概念，使用文本的全局特征去引导局部特征，构建文本的多粒度特征融合网络，参见图5，图5是本发明的文本多粒度特征融合网络的结构示意图，文本特征子网络输入为并行的文本的全局特征和局部特征，输出为最终的文本嵌入，所构建的网络可表示如下：

其中，W'表示文本的全局向量，

表示文本的单词序列特征向量，g_q表示经过全局向量引导后的局部特征，T为最终得到的文本嵌入。

针对现有方法不能融合单模态数据下不同粒度的特征问题，本发明构建多粒度特征融合网络，通过全局特征来引导局部特征，平衡全局特征与局部特征之间的信息，将全局特征与局部特征进行融合，使得最终的数据表示包含更为丰富的信息。

实施例4

多粒度特征融合的跨模态图文检索方法同实施例1-3，步骤(5)所述的用损失函数同时对步骤(3)和(4)所构建的交互网络和融合网络进行训练，包括有如下步骤：

5a)定义并计算联合损失函数：定义联合损失函数为三元组损失、角损失和文本生成损失之和；对于输入的每一个样本，通过网络计算出最终的图像嵌入I和文本嵌入T，使用如下联合损失函数计算联合损失L：

L＝L_triplet+θL_angular+L_caption

其中θ是角损失的影响因子，L_triplet为三元组损失，L_angular为角损失，L_caption为文本生成损失；

5b)网络训练：通过Adam优化器训练整个网络模型，包括跨模态交互网络和多粒度特征融合网络，并更新每个网络的参数，网络参数的更新是由Adam优化器训练时自动更新。

针对现有方法训练网络速度慢的问题，本发明同时使用三种损失函数训练网络，加快网络的收敛过程。此外，三种损失联合训练使得正负样本之间的距离更远，可以学习到更好的特征表示。

下面给出一个更加详细的例子，对本发明进一步说明，

实施例5

多粒度特征融合的跨模态图文检索方法同实施例1，下面结合附图对本发明做进一步的详细描述。

结合附图2对本发明实现方法做具体描述。

(1)特征表示

视觉表示：对每张图片I使用Faster-RCNN提取其局部信息，并且根据其置信度选取其前R个区域特征向量I，表示为：

此外，使用跨模态预训练模型提取图像的全局特征V。然后，通过全连接层将区域特征和全局特征转化到D维空间中，最终的区域特征表示为

全局特征表示为V'。

文本表示：对于一个输入句子S，本发明使用BERT作为编码器提取词嵌入，

其中，q指单词数量，D_t表示Bert的嵌入维度。同样的，使用全连接层得到D维的单词特征向量W＝[w₁,w₂,…,w_r],w_i∈R^q×D。为了得到文本的全局表示，我将Bert嵌入输入到GRU当中，进一步编码增强单词表示，最后通过平均池化操作来得到文本的全局表示W'。

(2)细粒度模态交互

结合附图3对本发明构建的细粒度跨模态信息交互模块做进一步描述。

自注意力机制用来在序列问题中解决长距离依赖，用来捕捉数据内部特征的相关性。顾名思义，自注意力机制是提取信息时聚焦到所能注意到的重要信息，忽略掉不重要的信息。其本质函数可以描述为一个查询(query)到一系列键值(key-value)对的映射。换句话说，权重越大，越聚焦于其value值。权重代表其重要性，value代表所表示的信息。自注意力机制的计算主要分为两步，第一个过程是根据Query和Key计算权重系数，第二个过程根据权重系数对Value进行加权求和。在计算权重时还可以使用Softmax函数进一步加强权重。而多头自注意力是利用多个查询Query来并行计算，从输入信息中选取多组信息，每一个头关注信息的不同部分。其计算如下：

其中，

是待学习的参数矩阵，由输入序列的线性变换生成。MLP为全连接层，α_i表示注意力分数。

为了加强不同模态之间的信息交互，本发明使用多头自注意力机制，拼接图像的局部特征V与文本的单词序列特征W，将联合特征作为多头注意力机制的输入，利用注意力机制来交互不同模态的细粒度信息。在多头注意力机制中，每个片段都可以学习到其他片段的信息。因此，本发明的模型不仅充分学习了模态内的局部关系，也进行了跨模态的细粒度信息交互。多头自注意力计算如下：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (2)

MultiHead＝concat(head₁,…,head_h)W^O (3)

其中，W_i ^Q,W_i ^K,W_i ^V为待学习的参数。像Bert中那样，在自注意力层后添加正则化和前馈神经网络层，再正则化后作为加强后的特征输出。其计算如下：

z_i＝LayerNorm(y_i+FFN(y_i)),i＝1…,r+q. (4)

其中，y_i是多头注意力的输出，既图像和文本的联合特征。

通过自注意力机制编码后的图像和文本的局部特征包含了模态内的相似性关系以及跨模态的细粒度相似性关系，但是这些局部特征不能作为图像和文本的语义嵌入，图像文本的特征嵌入应该是一个包含图像文本的整体高级语义特征。因此，为了得到最终的图像文本嵌入，并且将自注意力学习到的信息利用起来，本发明采用两个融合模块对别对图像模态和文本模态的全局信息和局部信息进行融合，得到最终的特征向量。图像局部特征

和文本的局部特征向量计算如下所示：

其中r代表图像区域个数，q是指文本的序列长度。z_i是经过多头注意力编码后的联合特征向量。

(3)图像多粒度特征融合网络构建

结合附图4对本发明构建的图像多粒度特征融合网络做进一步描述。

为了让图像嵌入即具有图像的全局语义信息，又具有局部的细粒度信息，需要对图像的全局特征V和局部特征I_i进行特征融合。本发明使用CRGN提出的深度关系嵌入方法进行特征融合，深度关系嵌入让最终的图像表示包含图像所有的语义概念和语义关系，利用注意力机制平衡全局特征和局部特征的相对贡献。深度关系嵌入方法和最终的图像嵌入计算如下：

其中，concat表示向量的拼接，⊙表示矩阵点积，V'表示图像的全局特征，FC表示全连接，mean表示矩阵的列平均池化，Norm表示二范数正则化。

是图像的局部区域特征，t作为注意力分数。

(4)文本多粒度特征融合网络构建

结合附图5对本发明构建的文本多粒度特征融合网络做进一步描述。

单词序列能够很好的表达文本的细粒度信息，但是缺乏整体的高级语义，为了让学习的文本表示既能包含单词的细粒度信息也能表示句子整体的含义，融合不同粒度的文本特征，使用文本的全局特征引导局部特征，最终的文本嵌入T计算如下：

其中，W'表示文本的全局向量，

表示文本的单词序列特征向量，g_q表示经过全局向量引导后的局部特征。

(5)网络训练：

在训练网络时，本发明使用联合损失函数来训练整个网络，联合损失函数定义为对比损失、角损失和文本生成损失之和。

对比损失：具体来说，使用铰链三元组损失。通过三元组损失的学习，使得正样本和锚之间的距离最小，和负样本之间的距离达到最大，锚为随机样本。其计算如下：

其中，s[I,T]表示图像嵌入I和文本嵌入T之间的余弦相似度，

表示在一个最小batch中相对文本T的负样本。

角损失：与对比损失不同，角损失考虑角度关系作为相似性度量。由于距离度量在尺度变化时比较敏感，而角损失具有旋转不变和尺度不变的优点，增加了三阶集合限制，捕获三元组的附加局部结构，收敛性更好。引入双向优化角损失，其计算如下：

其中a、p和n表示图像或文本嵌入。α>0是预定义的参数，约束了角损失中三元组三角形的角度。

文本生成损失：为了进一步加强文本和图像之间的关系，本发明设计文本生成损失。一个好的图像嵌入应该具有生成相对应的文本描述的能力，将图像嵌入输入到GRU当中以生成词序列，所生成的词序列与真实句子作为交叉熵损失函数的输入，最大化输出序列的对数似然。该损失函数定义如下：

其中，l是输出单词序列w_t的长度.

最终的损失函数定义如下所示，

L＝L_triplet+θL_angular+L_caption, (11)

其中θ是角损失的影响因子。

本发明公开了一种多粒度特征融合的跨模态图文检索方法，解决了现有跨模态检索方法不能够全面提取模态数据的信息，并且不能在不同模态的数据之间进行细粒度的信息交互的技术问题，实现包括：建立图文检索数据集；样本的图文特征提取；构建基于注意力的细粒度跨模态交互网络；构建多粒度特征融合网络；使用联合损失函数同时对所构建的交互网络和融合网络进行训练；完成图像和文本的双向检索本发明使用预训练模型提取特征，通过多粒度特征融合网络学习更强大的特征表示，使得模型在简单的双路编码结构下具有较高的检索效率和检索精度，本发明具有高检索精度和高检索效率的优点，可应用于人工智能领域，如信息推荐和信息检索等。

下面结合仿真实验，对本发明的效果做进一步说明。

实施例6

多粒度特征融合的跨模态图文检索方法同实施例1-5

实验条件和设置：

本发明仿真实验实现的硬件环境为：Intel Core i7-9750处理器，2.60GHz，16.0GB RAM,显示适配器为NVIDIAGeForce RTX 2060。

本发明仿真实验实现的软件环境为：Windows 10操作系统，Pycharm Community2021开发平台,基于python 3.6,和Pytorch 0.4版本框架。

本发明仿真实验设置如下：mini-batch为64，设30个epoch,学习率为0.1。

本发明仿真实验数据集和评级指标如下：实验使用Flickr30K数据集，包含31783张图像，每张图像对应5条人工标注的图像描述。实验中使用29000张图像作为训练集，1000张为验证集，对应5条文本数据，每张图像扩充为5张，使用5折交叉验证法。剩余的图像作为测试集。实验中所使用的性能评价指标为Recall@K(K＝1、5、10)，表示检索的排序结果中前K个结果的包含真实值的百分比。

仿真内容和结果分析：

本发明的仿真实验使用本发明的方法以及现有的6个深度学习方法(SCAN、VRSN、SAEM、CRGN、SHAN、DIME)分别进行实验。通过相同的Flickr30K数据集,分别在7种方法上进行仿真，对比结果如下表1所示。

在实验中，6个现有的深度学习方法分别指：

现有方法SCAN指Lee等人在“Stacked cross attention for image-textmatching.In European Conference On Computer Vision,pages 201–216.”提出的跨模态检索方法，简称SCAN。

现有方法VSRN指Li等人在“Visual Semantic Reasoning for Image-TextMatching.In Proceedings of the IEEE International Conference on ComputerVision.IEEE,4654–4662.”提出的跨模态检索方法，简称VRSN。

现有方法SAEM指Wu等人在“Learning Fragment Self-Attention Embeddingsfor Image-Text Matching.In Proceedings of the ACM International Conference onMultimedia.ACM,2088–2096.2019.”提出的跨模态检索方法，简称SAEM。

现有方法CRGN指Zhang等人在“Deep Relation Embedding for Cross-ModalRetrieval.IEEE Transactions on Image Processing,2020,30:1-1.”提出的跨模态检索方法，简称CRGN。

现有方法SHAN指Ji等人在“Step-Wise Hierarchical Alignment Network forImage-Text Matching.Proceedings of the Thirtieth International JointConference on Artificial Intelligence.2021.”提出的跨模态检索方法，简称SHAN。

现有方法DIME指Qu等人在“Dynamic Modality Interaction Modeling forImage-Text Retrieval.SIGIR.2021.”提出的跨模态检索方法，简称DIME。

表1本发明在Flickr30K数据集上与其他方法的对比结果

通过表1可以看出，本发明的方法除了文本检索图像Recall@10的结果中比现有方法SHAN低了0.3％，其他结果相比现有方法的精度都有所提高。图像检索文本中任务中，相比现有技术方法Recall@1值提高4.4％，而文本检索图像中，Recall@1值提高5.5％，实验数据充分证明，本发明实现更高精度的跨模态图文检索。

实验数据表明，本发明通过融合单模态下不同粒度的语义特征，得到了语义信息更充分的嵌入特征，同时通过细粒度跨模态信息交互和预训练模型提取特征，实现了在双路编码模型上达到较高的检索精度，相对应则有较快的检索效率。

实施例7

多粒度特征融合的跨模态图文检索方法同实施例1-5，下面结合消融实验对本发明所提出的方法作进一步说明。

为了进一步评估本发明所提出的多粒度特征融合的跨模态图文检索方法中所构建的每个网络的有效性，通过消融实验来进行验证。

实验设置：

本发明分别针对所构建的三个网络，即基于注意力的细粒度跨模态交互网络、图像的多粒度特征融合网络和文本的多粒度特征融合网络，通过分别移除网络模块来进行实验，1)w/o IF:移除图像的多粒度特征融合模块，通过图像局部特征的平均池化代替；2)w/oTF:移除文本的多粒度特征融合模块，通过文本局部特征的平均池化代替；3)w/o MI:移除基于注意力的细粒度跨模态交互网络模块；

实验结果分析：

通过对实验设置中提出的三种方法分别进行实验，在Flickr30K数据集上进行实验，对比结果如下表2所示。

表2本发明在Flickr30K数据集上的消融实验结果

通过表2可以看出，本发明的方法去除任一网络模块，在检索精度上都会有所下降，尤其是Recall@1下降幅度较大，去除交互网络后的Recall@1图像检索结果下降了9.6％，而去除融合网络后的图像检索结果下降了7.6％，实验数据充分证明，本发明使用所构建的基于注意力的细粒度跨模态交互网络和多粒度特征融合网络都可以提高跨模态图文检索的精度，如果两个网络共同作用，本发明构建的跨模态检索模型可以大大提高跨模态检索的精度。

综上所述，本发明的一种多粒度特征融合的跨模态图文检索方法，解决了现有跨模态检索方法不能够全面提取模态数据的信息，并且不能在不同模态的数据之间进行细粒度的信息交互的技术问题，实现包括：建立图文检索数据集；样本的图文特征提取；构建基于注意力的细粒度跨模态交互网络；构建多粒度特征融合网络；使用联合损失函数同时对所构建的交互网络和融合网络进行训练；完成图像和文本的双向检索。本发明使用预训练模型提取特征，通过特征融合网络学习更强大的特征表示，使得本发明所构建的跨模态检索模型在简单的双路编码结构下具有较高的检索效率和检索精度，本发明具有高检索精度和高检索效率的优点，可应用于人工智能领域，如信息推荐和信息检索等。

Claims

1.一种多粒度特征融合的跨模态图文检索方法，其特征在于，包括有以下步骤：

(2)样本的图文特征提取：对训练集、验证集和测试集所有样本中的每张图片，使用Faster-RCNN提取每张图片的k个区域特征，即局部特征，使用预训练模型Vilt提取每张图片的全局特征；对于样本中的图像所对应的文字描述，使用Bert提取文字描述文本中每个单词的特征，得到局部特征，在局部特征后连接门控循环单元GRU，进行池化，得到文字描述的全局特征；通过对每个样本中图像文本对的各自的特征提取，分别得到训练集、验证集和测试集中所有的样本的图像和文字描述各自对应的局部特征和全局特征，并分别保存；每个数据集包含4个特征文件，总共为12个特征文件；

(4)构建多粒度特征融合网络：构建多粒度特征融合网络对图像和文字描述的不同粒度的特征进行融合，融合网络输入为并行输入的四个特征，即图像和文字描述各自的局部特征和全局特征，其中，局部特征为跨模态交互网络的输出，全局特征输入来自训练集的全局特征文件；多粒度特征融合网络包括图像特征融合和文本特征融合两个子网络，两个子网络的并行输出即为融合网络输出；两个子网络并行独立存在，图像特征融合子网络将图像的全局特征嵌入到与局部特征相同的维度之后，通过注意力机制来平衡全局特征和局部特征的相对贡献，最后平均池化后得到最终的图像嵌入I；文本特征融合子网络的将文字描述的全局特征嵌入到与局部特征相同的维度之后，用全局特征去引导局部特征，最后平均池化后得到最终的文本嵌入T；图像嵌入I为图像特征融合子网络的输出，文本嵌入T为文本特征融合子网络的输出，两个输出为多粒度特征融合网络的并行输出；

(5)使用联合损失函数同时对所构建的交互网络和融合网络进行训练：定义联合损失函数为三元组损失、角损失和文本生成损失之和，使用联合损失函数对跨模态交互网络和多粒度特征融合网络同时进行训练，通过角损失的影响因子θ来约束角损失对整个损失的影响，增大正负样本之间的距离，更新网络参数；

(6)完成图像和文本的双向检索：使用图像去检索对应的文字描述时，将测试集中的每张图像与其对应的文字描述作为样本输入到网络模型中得到图像和文字描述各自的编码表示，对于每张图像，使用欧氏距离函数计算与所有文字描述的相似度大小，距离越小则相似度越高，最相似的特征所对应的文本描述即为检索结果；使用文字描述去检索对应的图像时，将测试集所有文字描述与测试集中所有的图像作为样本输入到网络模型中得到文字描述和图像各自的编码表示，对于每句文字描述，同样使用欧氏距离函数计算与所有图像的相似度大小，最相似的图像特征所对应的图像即为检索结果；统计测试集中所有图像和文字描述的检索准确率，完成多粒度特征融合的跨模态图文检索。

2.根据权利要求1中所述的多粒度特征融合的跨模态图文检索方法，其特征在于，步骤(3)所述的构建基于注意力的细粒度跨模态交互网络，包括有如下步骤：

3a)构建用于图像和文字描述的联合特征表示的全连接层：在构建的基于注意力的细粒度跨模态交互网络，交互网络的输入为一个样本中的图像和文字描述各自的局部特征，首先构建用于图像和文字描述的联合特征表示的全连接层，该全连接层由并行的两个不同的全连接层构成，两个并行的全连接层分别用于图像和文字描述两个模态的嵌入，将样本中的图像局部特征和对应文字描述的局部特征并行嵌入到相同的语义空间，在该语义空间中，图像的第i个局部区域特征表示为v_i，图像局部特征V表示为：V＝[v₁,v₂,…,v_r],