CN114357148A

CN114357148A - 一种基于多级别网络的图像文本检索方法

Info

Publication number: CN114357148A
Application number: CN202111619401.1A
Authority: CN
Inventors: 冯永; 杨磊; 王永恒
Original assignee: Chongqing University; Zhejiang Lab
Current assignee: Chongqing University; Zhejiang Lab
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-15

Abstract

本发明涉及图像文本检索技术领域，具体涉及一种基于多级别网络的图像文本检索方法，包括：构建具有全局级别子网络、关系级别子网络和数字级别子网络的图文检索模型；构建用于训练图文检索模型的训练数据集，训练数据集中包括图像文本对；将训练数据集中的图像文本对分别输入图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络，以分别生成对应的全局级别相似度、关系级别相似度和数字级别相似度并单独训练对应的子网络；基于训练完成的图文检索模型进行图像文本检索。本发明中的图像文本检索方法能够提升图像文本的检索效率和检索准确性，从而能够提升图像文本检索的效果。

Description

一种基于多级别网络的图像文本检索方法

技术领域

本发明涉及图像文本检索技术领域，具体涉及一种基于多级别网络的图像文本检索方法。

背景技术

图像文本检索是指在给定一张检索图像在文本库中检索出与之相关的文本描述语句，或者给定一句文本描述在图片库中检索出与之对应的图像。在很多领域有重大应用，例如在大型图像、视频类网站有巨大的应用需求，用户输入查询文本，通过文本图像检索技术，实现对查询文本相关的图像或视频的检索，从而达到多媒体数据的快速索引，提升多媒体数据管理效率，提升用户使用体验的效果。

现有方法通过将图像和文本映射到一个共同的空间中来衡量它们之间的相似性，但这类方法不能捕获图像和句子中的细粒度语义信息。为此，公开号为CN109255047A的中国专利公开了《一种基于互补语义对齐和对称检索的图像-文本互检索方法》，其包括：利用基于目标的卷积神经网络和基于场景分布的卷积神经网络融合的模型提取深度视觉特征；利用长短期记忆网络对文本进行编码，提取出对应的语义特征表示；利用两个映射矩阵分别将视觉特征和文本特征映射到同一个跨模态的嵌入空间中；利用k最近邻的方法，在该跨模态嵌入空间检索，得到检索的初始列表；利用基于互近邻的方法对称双向检索的邻近关系，对初始检索列表进行重排序，得到最终的检索等级列表。

上述现有的图像文本互检索方法利用图像与文本交叉处理后的交互信息，更准确的挖掘图像语义信息与文本语义信息。但是，现有通过交叉注意力机制整合另一种形态的上下文信息来获取关系信息的方法，大多需要执行基于图像的注意力机制对齐和基于文本的注意力机制对齐。然而，这种基于注意力机制对齐的方式十分耗时，进而导致图像文本检索的效率很低。同时，现有方法忽略了图像文本的数字信息，例如，未对“four”和“Three”等数字级别信息进行对齐，使得通过文本“four people are jumping from the top ofstairs”和“Three people are jumping from the top of stairs”检索得到的图像相同，即图像文本检索的准确性不高。

因此，如何设计一种能够提升图像文本检索效率和准确性的方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于多级别网络的图像文本检索方法，以能够提升图像文本的检索效率和检索准确性，从而提升图像文本检索的效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种基于多级别网络的图像文本检索方法，包括以下步骤：

S1：构建具有全局级别子网络、关系级别子网络和数字级别子网络的图文检索模型；

S2：构建用于训练图文检索模型的训练数据集，训练数据集中包括图像文本对；

S3：将训练数据集中的图像文本对分别输入图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络，以分别生成对应的全局级别相似度、关系级别相似度和数字级别相似度，然后分别基于全局级别相似度、关系级别相似度和数字级别相似度单独训练对应的子网络；

S4：基于训练完成的图文检索模型进行图像文本检索。

优选的，步骤S2中，将训练数据集中的图像文本对进行预处理和特征提取，以获取对应图像的图像全局特征和图像局部特征以及对应文本的文本全局特征和文本局部特征。

优选的，步骤S3中，通过如下步骤训练全局级别子网络：

S301：将图像文本对的图像全局特征和文本全局特征输入全局级别子网络中；

S302：基于图像全局特征和文本全局特征计算对应的全局级别相似度；

S303：基于全局级别相似度计算对应的全局级别三元组损失，并通过全局级别三元组损失训练全局级别子网络。

优选的，通过公式S_g(v,t)＝sim_g(g^v,g^t)计算全局级别相似度；

全局级别三元组损失的目标函数为

式中：S_g(v,t)表示图像文本对(v,t)的全局级别相似度；g^v表示图像全局特征；g^t表示文本全局特征；L_global表示全局级别三元组损失；(v⁺,t^-)表示匹配的图像文本对；(v⁺,t^-)表示不匹配的图像文本对，即相似度最小的图像文本对；m表示margin超参数；N表示图像文本对的数量。

优选的，步骤S3中，通过如下步骤训练关系级别子网络：

S311：将图像文本对的图像局部特征和文本局部特征输入关系级别子网络中；

S312：将图像局部特征经过Transformer编码器以聚合每个图像区域之间的关系信息，生成对应的图像关系特征；

S313：将文本局部特征经过Bert模块以综合单词之间的关系信息，生成对应的文本关系特征；

S314：基于图像关系特征和文本关系特征计算对应的关系级别相似度；

S315：基于关系级别相似度计算对应的关系级别三元组损失，并通过关系级别三元组损失训练关系级别子网络。

优选的，Transformer编码器包括用于多次计算注意力的多头自注意力机制层，以及用于获得丰富语义特征表示的全连接前向反馈层；Transformer编码器能够聚合每个图像区域之间的关系信息生成对应的图像关系特征，并使得图像关系特征的每个特征包含了图像区域的语义信息以及与其他区域之间的关系信息。

优选的，通过公式

计算关系级别相似度；

关系级别三元组损失的目标函数为L_relation＝max(0,m-S_r(v⁺,t^-)+S_r(v⁺,t^-))；

式中：S_r(v,t)表示图像文本对(v,t)的关系级别相似度；s_ij ^r表示图像关系特征中第i个特征与文本关系特征中第j个特征的相似度；L_relation表示关系级别三元组损失；(v⁺,t^-)表示匹配的图像文本对；(v⁺,t^-)表示不匹配的图像文本对，即相似度最小的图像文本对；m表示margin超参数。

优选的，步骤S3中，通过如下步骤训练数字级别子网络：

S321：将图像文本对的图像局部特征和文本局部特征输入数字级别子网络中；

S322：基于图像局部特征计算图像每个区域之间的相似度，得到对应的图像区域相似度矩阵；然后从图像区域相似度矩阵中选取相似度大于γ的相似区域构成相似区域集合；最后通过Bert模块将相似区域集合的数量信息转换为向量并按比例与图像局部特征进行融合，以生成对应的图像数字特征；

S323：基于文本局部特征计算文本每个单词之间的相似度，得到对应的文本单词相似度矩阵；然后从文本单词相似度矩阵中选取相似度大于γ的相似单词构成相似单词集合；最后通过Bert模块将相似单词集合的数量信息转换为向量并按比例与文本局部特征进行融合，以生成对应的文本数字特征；

S324：基于图像数字特征和文本数字特征计算对应的数字级别相似度；

S325：基于数字级别相似度计算对应的数字级别三元组损失，并通过数字级别三元组损失训练数字级别子网络。

优选的，通过公式S_ij ^v＝sim(l_i ^v,l_j ^v)计算图像区域相似度矩阵；

相似区域集合表示为

图像数字特征表示为

其中，

通过公式S_ij ^t＝sim(l_i ^t,l_j ^t)计算文本单词相似度矩阵；

相似单词集合表示为

文本数字特征表示为

其中，

通过公式

计算数字级别相似度；

数字级别三元组损失的目标函数为L_digit＝max(0,m-S_r(v⁺,t^-)+S_r(v⁺,t^-))；

式中：S_ij ^v表示图像区域相似度矩阵；l_i ^v表示图像局部特征L^v中的第i个特征；D^v表示图像数字特征；num_v表示相似区域集合V中的特征数量；S_ij ^t表示文本单词相似度矩阵；l_i ^t表示文本局部特征L^t中的第i个特征；D^t表示文本数字特征；num_t表示相似单词集合T中的特征数量；S_d(v,t)表示图像文本对(v,t)的数字级别相似度；s_ij ^d表示图像数字特征中第i个特征与文本数字特征中第j个特征的相似度；L_digit表示数字级别三元组损失；(v⁺,t^-)表示匹配的图像文本对；(v⁺,t^-)表示不匹配的图像文本对，即相似度最小的图像文本对；m表示margin超参数。

优选的，步骤S4中，进行图像文本检索时，将图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络输出的全局级别相似度、关系级别相似度和数字级别相似度进行融合，生成对应的多级别总体相似度，并基于多级别总体相似度对检索结果进行评分和排序；

其中，通过公式S_overall＝S_r+αS_d+βS_g计算多级别总体相似度；

式中：S_overall表示多级别总体相似度，S_r表示关系级别相似度；S_d表示数字级别相似度；S_g表示全局级别相似度；α、β表示权衡超参数，用于调节各级网络语义信息的比例。

本发明中的图像文本检索方法与现有技术相比，具有如下有益效果：

本发明通过训练数据集分别训练图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络，使得图文检索模型能够分别获取图像和文本的全局级别相似度、关系级别相似度和数字级别相似度，即能够捕获图像和文本的全局信息、细粒度关系信息和数字信息并进行对齐，从而能够提升图像文本检索的准确性。

本发明对全局信息、细粒度关系信息和数字信息进行对齐的方式，与现有基于注意力机制对齐相比，对齐过程更简单且耗时更少，从而能够提升图像文本检索的效率。

本发明对全局级别子网络、关系级别子网络和数字级别子网络进行单独训练的方式，能够保证各个子网络的训练效果，并能够有效降低模型的训练难度，从而能够提升图文检索模型的训练效果。

本发明通过全局级别相似度、关系级别相似度和数字级别相似度融合生成多级别总体相似度来对检索结果进行评分和排序的方式，能够保证图文检索模型所输出检索结果的准确性和有效性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为图像文本检索方法的逻辑框图；

图2为图文检索模型的网络结构图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于多级别网络的图像文本检索方法。

如图1所示，基于多级别网络的图像文本检索方法，包括以下步骤：

S1：构建具有全局级别子网络、关系级别子网络(局部/关系级别子网络)和数字级别子网络的图文检索模型；

S3：结合图2所示，将训练数据集中的图像文本对分别输入图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络，以分别生成对应的全局级别相似度、关系级别相似度和数字级别相似度，然后分别基于全局级别相似度、关系级别相似度和数字级别相似度单独训练对应的子网络；

S4：基于训练完成的图文检索模型进行图像文本检索。进行图像文本检索时，将图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络输出的全局级别相似度、关系级别相似度和数字级别相似度进行融合，生成对应的多级别总体相似度，并基于多级别总体相似度对检索结果进行评分和排序；

本发明通过训练数据集分别训练图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络，使得图文检索模型能够分别获取图像和文本的全局级别相似度、关系级别相似度和数字级别相似度，即能够捕获图像和文本的全局信息、细粒度关系信息和数字信息并进行对齐，从而能够提升图像文本检索的准确性。同时，本发明对全局信息、细粒度关系信息和数字信息进行对齐的方式，与现有基于注意力机制对齐相比，对齐过程更简单且耗时更少，从而能够提升图像文本检索的效率。此外，本发明对全局级别子网络、关系级别子网络和数字级别子网络进行单独训练的方式，能够保证各个子网络的训练效果，并能够有效降低模型的训练难度，从而能够提升图文检索模型的训练效果。最后，本发明通过全局级别相似度、关系级别相似度和数字级别相似度融合生成多级别总体相似度来对检索结果进行评分和排序的方式，能够保证图文检索模型所输出检索结果的准确性和有效性。

具体实施过程中，基于高性能服务器搭建Web平台，将所述图文检索模型作为其后端调用的接口，实现图像和文本相互检索的功能。用户通过上传图像或输入文本，检索相关的另一模态数据，返回检索结果。其中，硬件部分中所使用的计算机设备为基于AMD处理器和NVIDIA GeForce GTX 1080Ti GPU的服务型计算机，所需的图像和文本数据可通过网络传输至其存储系统中。代码均使用Python语言实现。

训练数据集包括MS-COCO和Flickr30K。其中，MS-COCO数据集是图像和句子检索任务中最常使用数据集之一，它包含123287张图片，每张图片都有5个文字说明，分别使用5000张图片用于验证与测试，剩余的图片用于训练。Flickr30k数据集包含31,783张图片，每张图片有5个文字标注，分别使用1000张图片用于验证与测试，其余的图片用于训练。

具体实施过程中，将训练数据集中的图像文本对进行预处理和特征提取，以获取对应图像的图像全局特征和图像局部特征以及对应文本的文本全局特征和文本局部特征。

具体的，对图像进行全局特征提取：将图片数据输入至在Visual Genome数据集上预训练的Resnet101模型中，取其池化层Pool5的输出结果，并通过全连接神经网络将其映射为1024维度特征表示，图像全局特征表示为g^v。

对图像进行局部特征提取：使用在Visual Genome数据集上预训练的目标检测模型Faster-RCNN提取图像的显著区域，取评分排名前36的目标区域，再通过预训练的Resnet-101模型提取每个区域的特征，取池化层pool5的输出结果作为每一区域的特征，并通过全连接神经网络将其映射为1024维度的特征表示，图像局部特征表示为

对文本进行全局特征提取和局部特征提取：对每个文本数据使用WordPiece模型进行分词，并将单词映射维768维度的特征表示。文本全局特征使用表示为g^t，文本局部特征表示为

本发明对图像文本对进行预处理和特征提取并获取图像的图像全局特征和图像局部特征和文本的文本全局特征和文本局部特征，使得能够基于图像全局特征、图像局部特征、文本全局特征和文本局部特征单独有效的训练全局级别子网络、关系级别子网络和数字级别子网络，从而能够提升图文检索模型的训练效果。

具体实施过程中，通过如下步骤训练全局级别子网络：

S303：基于全局级别相似度计算对应的全局级别三元组损失，并通过全局级别三元组损失训练全局级别子网络。从训练数据集中获取N个图像文本对，通过最小化全局级别三元组损失函数，使得相似图像文本对特征表示接近，从而实现图像和文本全局特征的对齐。

具体的，通过公式S_g(v,t)＝sim_g(g^v,g^t)计算全局级别相似度；

全局级别三元组损失的目标函数为

本发明通过上述步骤训练全局级别子网络，使得全局级别子网络输出的全局级别相似度对特征表示接近，能够实现图像和文本全局特征的对齐，进而能够有效的捕获图像和文本的全局信息，以辅助提升图像文本检索的准确性。

具体实施过程中，通过如下步骤训练关系级别子网络：

S315：基于关系级别相似度计算对应的关系级别三元组损失，并通过关系级别三元组损失训练关系级别子网络。通过最小化关系级别三元组损失函数，可使图像和文本在关系特征级别上进行对齐，从而捕获图像和文本的细粒度关系语义信息。

具体的，通过公式

计算关系级别相似度；

图像关系特征表示为

基于图像局部特征

计算；

文本关系特征表示为

基于文本局部特征

计算；

其中，Transformer编码器包括用于多次计算注意力的多头自注意力机制层，以及用于获得丰富语义特征表示的全连接前向反馈层；Transformer编码器能够聚合每个图像区域之间的关系信息生成对应的图像关系特征，并使得图像关系特征的每个特征包含了图像区域的语义信息以及与其他区域之间的关系信息。

在多头自注意力机制层中，由于注意力被计算h次，所以称之为多头注意力机制。它是将查询值Q、键值K以及实值V通过不同的映射方式映射h次得到的。

具体地说，给定一个集合X＝{x₁,x₂,...,x_m}，其中

以及

给定的集合X通过映射矩阵求得查询值Q_X＝XW_i ^Q,键值K_X＝XW_i ^K以及真实值V_X＝XW_i ^V，其中权重矩阵

随后，将注意力权重加权得到求和得到：

将每个头head的注意力值进行拼接得到：

head_i＝Attention(XW_i ^Q,XW_i ^K,XW_i ^V)；

其中，

h表示head的数量。

为了获得更加丰富语义的特征表示，通过全连接前馈网络层将图像区域的位置信息融合入特征表示中，公式描述如下：

FFN(x)＝ReLu(xW₁+b₁)W₂+b₂；

其中，

本发明通过上述步骤训练关系级别子网络，使得关系级别子网络输出的关系级别相似度能够在关系特征级别上进行对齐，进而能够捕获图像和文本的细粒度关系语义信息，以辅助提升图像文本检索的准确性。

具体实施过程中，通过如下步骤训练数字级别子网络：

S322：基于图像局部特征计算图像每个区域之间的相似度，得到对应的图像区域相似度矩阵；然后从图像区域相似度矩阵中选取相似度大于γ(根据需要自行设置)的相似区域构成相似区域集合；最后通过Bert模块将相似区域集合的数量信息转换为向量并按比例与图像局部特征进行融合，以生成对应的图像数字特征；

S323：基于文本局部特征计算文本每个单词之间的相似度，得到对应的文本单词相似度矩阵；然后从文本单词相似度矩阵中选取相似度大于γ根据需要自行设置)的相似单词构成相似单词集合；最后通过Bert模块将相似单词集合的数量信息转换为向量并按比例与文本局部特征进行融合，以生成对应的文本数字特征；

S325：基于数字级别相似度计算对应的数字级别三元组损失，并通过数字级别三元组损失训练数字级别子网络。通过最小化数字级别三元组损失函数，使得能够在数字级别对齐图像和文本，进而通过最大限度地减少损失来捕获细粒度的数字信息。

具体的，通过公式S_ij ^v＝sim(l_i ^v,l_j ^v)计算图像区域相似度矩阵；

相似区域集合表示为

图像数字特征表示为

其中，

通过公式S_ij ^t＝sim(l_i ^t,l_j ^t)计算文本单词相似度矩阵；

相似单词集合表示为

文本数字特征表示为

其中，

通过公式

计算数字级别相似度；

本发明通过上述步骤训练数字级别子网络，使得数字级别子网络输出的数字级别相似度能够在数字级别对齐图像和文本，进而能够有效的捕获细粒度的数字信息，以辅助提升图像文本检索的准确性。

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基于多级别网络的图像文本检索方法，其特征在于，包括以下步骤：

S4：基于训练完成的图文检索模型进行图像文本检索。

2.如权利要求1所述的基于多级别网络的图像文本检索方法，其特征在于：步骤S2中，将训练数据集中的图像文本对进行预处理和特征提取，以获取对应图像的图像全局特征和图像局部特征以及对应文本的文本全局特征和文本局部特征。

3.如权利要求2所述的基于多级别网络的图像文本检索方法，其特征在于，步骤S3中，通过如下步骤训练全局级别子网络：

4.如权利要求3所述的基于多级别网络的图像文本检索方法，其特征在于：

通过公式S_g(v,t)＝sim_g(g^v,g^t)计算全局级别相似度；

全局级别三元组损失的目标函数为

5.如权利要求2所述的基于多级别网络的图像文本检索方法，其特征在于，步骤S3中，通过如下步骤训练关系级别子网络：

6.如权利要求5所述的基于多级别网络的图像文本检索方法，其特征在于：Transformer编码器包括用于多次计算注意力的多头自注意力机制层，以及用于获得丰富语义特征表示的全连接前向反馈层；Transformer编码器能够聚合每个图像区域之间的关系信息生成对应的图像关系特征，并使得图像关系特征的每个特征包含了图像区域的语义信息以及与其他区域之间的关系信息。

7.如权利要求5所述的基于多级别网络的图像文本检索方法，其特征在于：

通过公式

计算关系级别相似度；

8.如权利要求3所述的基于多级别网络的图像文本检索方法，其特征在于，步骤S3中，通过如下步骤训练数字级别子网络：

9.如权利要求8所述的基于多级别网络的图像文本检索方法，其特征在于：

通过公式S_ij ^v＝sim(l_i ^v,l_j ^v)计算图像区域相似度矩阵；

相似区域集合表示为

图像数字特征表示为

其中，

通过公式S_ij ^t＝sim(l_i ^t,l_j ^t)计算文本单词相似度矩阵；

相似单词集合表示为

文本数字特征表示为

其中，

通过公式

计算数字级别相似度；

10.如权利要求1所述的基于多级别网络的图像文本检索方法，其特征在于：步骤S4中，进行图像文本检索时，将图文检索模型的全局级别子网络、关系级别子网络和数字级别子网络输出的全局级别相似度、关系级别相似度和数字级别相似度进行融合，生成对应的多级别总体相似度，并基于多级别总体相似度对检索结果进行评分和排序；