CN114357231B

CN114357231B - 一种基于文本的图像检索方法、装置及可读存储介质

Info

Publication number: CN114357231B
Application number: CN202210221464.XA
Authority: CN
Inventors: 叶海涛; 毛云青; 李洁; 王国梁; 陈斌
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-28
Anticipated expiration: 2042-03-09
Also published as: CN114357231A

Abstract

本申请提出了一种基于文本的图像检索方法、装置及可读存储介质，包括：获取检索文本和多个候选图像的初始图像特征；将检索文本转换为数字矩阵，根据数字矩阵提取初始文本特征，将数字矩阵与初始文本特征进行残差连接获得增强文本特征；将增强文本特征分别融合每一初始图像特征得到对应的第一特征矩阵，将初始文本特征分别融合每一初始图像特征得到对应的第二特征矩阵；将融合了相同初始图像特征的第二特征矩阵与第一特征矩阵同时输入特征交流网络得到对应的交流特征矩阵；将所有交流特征矩阵输入头部预测网络以获取目标图像。该方法使两种模态的特征进行有效信息交流和关联训练，提高模型的泛化能力，增强文本与图像之间的关联性，提交检索精度。

Description

一种基于文本的图像检索方法、装置及可读存储介质

技术领域

本申请涉及图像检索领域，特别是涉及一种基于文本的图像检索方法、装置及可读存储介质。

背景技术

图像检索方法主要分为两种，以文字搜图和以图搜图。

最初的以文字搜图主要是基于文本，也就是先建立包括多个标签的字典，人工根据字典中的标签对图像素材库中每一张图像进行描述，再从检索文本中提取出存在的标签，通过标签目标图像素材库中的图像以实现图像检索。这种方式不仅需要构建包括大量标签的字典，而且还需要大量的人力对图像素材库中的每一张图像进行手工标注，效率极其低下。

另外，以图搜图主要是使用图像特征提取技术，构建包括大量图像的图像素材库，提取待检索图像与图像素材库中图像的特征进行对比，在卷积神经网络之前主要是使用手工设计的额算法进行图像特征提取，例如harr、gist、sift等。

卷积神经网络（CNN）属于机器学习网络，在多个领域的视觉任务中有了最顶尖的表现，在图像检索的领域CNN也有了远超传统方法的表现。通过添加卷积层的数量实现的深度学习更是能提升CNN在图像特征提取方面的表现。然而直接使用CNN进行的特征提取主要集中于以图搜图，因为CNN并不能用于提取文字的特征，若使用其它机器学习算法提取的文字特征则因为与图像特征不在同一个概率分布，所以也无法进行直接的比较。

目前出现了多模态机器学习，与之前的机器学习的不同在于多模态机器学习能够接收不同模态的信息，将文字和图片、音频和视频等作为输入，因此可以通过多模态机器学习来进行以文字搜图。

然而，当前的多模态机器学习仍然依赖于人工标注的数据，不可以使用未经标注的数据进行无监督的机器学习，对于标注数据不足的情况下，会导致模型的泛化能力不足。并且，对于文本和图像的融合处理主要集中在训练过程中，在抽取文本和图像的特征时，是独立的抽取各自的特征，没有进行有效的信息交换，无法充分利用文本和图像的特征。另外，有些多模态机器学习会进行一些早期的预训练，但需求非常大的计算资源，无法在实现大范围部署。

发明内容

本申请提供了一种基于文本的图像检索方法、装置及电子装置、可读存储介质，该方法通过分别提取检索文本和候选图像的特征，使两种模态的特征通过特征融合的方式进行有效的信息交流，提高少量样本数据下模型的泛化能力，并使用改进transformer的结构进行关联训练，增强检索文本与候选图像之间的关联性，提高基于文本描述检索图像的能力。

第一方面，本申请实施例提供了一种基于文本的图像检索方法，包括以下步骤：

获取检索文本和多个候选图像的初始图像特征；

将所述检索文本转换为数字矩阵，根据所述数字矩阵提取初始文本特征，将所述数字矩阵与所述初始文本特征进行残差连接获得增强文本特征；

将所述增强文本特征分别融合每一所述初始图像特征得到对应的第一特征矩阵，将所述初始文本特征分别融合每一所述初始图像特征得到对应的第二特征矩阵；

将融合了相同初始图像特征的第二特征矩阵与第一特征矩阵同时输入特征交流网络得到对应的交流特征矩阵，其中所述特征交流网络包括并行的文本处理网络和图像处理网络，所述文本处理网络和所述图像处理网络包括数量相同的transformer层，交换所述文本处理网络和所述图像处理网络对应的每一transformer层中的查询特征，所述查询特征由每一所述transformer层的输入进行线性变化得到；

将所有所述交流特征矩阵输入头部预测网络以获取至少一目标图像。

第二方面，本申请实施例提供了一种基于文本的图像检索装置，用于实现第一方面中所述的基于文本的图像检索方法，该装置包括以下模块：

获取模块，用于获取检索文本和多个候选图像的初始图像特征；

文本特征提取模块，用于将所述检索文本转换为数字矩阵，根据所述数字矩阵提取初始文本特征，将所述数字矩阵与所述初始文本特征进行残差连接获得增强文本特征；

特征融合模块，用于将所述增强文本特征分别融合每一所述初始图像特征得到对应的第一特征矩阵，将所述初始文本特征分别融合每一所述初始图像特征得到对应的第二特征矩阵；

特征交流模块，用于将融合了相同初始图像特征的第二特征矩阵与第一特征矩阵同时输入特征交流网络得到对应的交流特征矩阵，其中所述特征交流网络包括并行的文本处理网络和图像处理网络，所述文本处理网络和所述图像处理网络包括数量相同的transformer层，交换所述文本处理网络和所述图像处理网络对应的每一transformer层中的查询特征，所述查询特征由每一所述transformer层的输入进行线性变化得到；

预测模块，用于将所有所述交流特征矩阵输入头部预测网络以获取至少一目标图像。

第三方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以如上任意申请实施例所述的基于文本的图像检索方法。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据如上任意申请实施例所述的基于文本的图像检索方法。

本申请的主要贡献和创新点如下：

本申请实施例提供的一种基于文本的图像检索方法，该方法通过分别提取检索文本和候选图像的特征，使两种模态的特征通过特征融合的方式进行有效的信息交流，提高少量样本数据下模型的泛化能力，并使用改进transformer的结构进行关联训练，增强检索文本与候选图像之间的关联性，提高基于文本描述检索图像的能力。在一些申请实施例中，还使用YOLOv5模型通过coco数据集进行预训练，减少资源占用。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于文本的图像检索方法的流程图；

图2是根据本申请实施例的特征交流网络的结构示意图；

图3是根据本申请实施例的基于文本的图像检索的结构框图；

图4是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本实施例提供了一种基于文本的图像检索方法，该方法主要包括如图1所示的步骤S1-S5。

步骤S1：获取检索文本和多个候选图像的初始图像特征。

在该步骤中，主要是先获取检索文本和已有的候选图像，提取出每一候选图像的初始图像特征，以便于使用检索文本进行图像检索。

其中，检索文本是对想要获取的目标图像的一种文本描述，通过该检索文本对目标图像的描述从所有候选图像中筛选出目标图像。

具体的，在需要获取某一个确定的图像或者某一类图像时，通过输入检索文本来进行图像检索，候选图像是事先存放在图像素材库中的图像，可以使用一些用于图像检测的预训练模型来提取出每一候选图像的初始图像特征。

在一些具体实施例中，该预训练模型可以采用YOLOv5模型。YOLOv5模型是一个运用于图片物体识别的模型，进行物体识别主要有两个步骤，一是使用方框对图片中的对应物体进行框定，二是识别框中物体的类别，对于每个框中物体的分类，模型会给出一个置信度，表示该模型对此分类的信心有多少。

例如，可以采用标注过的训练图像对YOLOv5模型进行预训练，然后将每一所述候选图像输入预训练后的YOLOv5模型获得对应的初始图像特征。在一些具体实施例中，直接使用coco数据集来训练YOLOv5模型，并且因为YOLOv5模型的模型特点，相比于其他物体识别模型，无需占用过多计算资源。

具体的，使用YOLOv5算法进行训练，首先通过设置置信度的高低，选择高于置信度的方框，以此选出10到36个框，这些框中的图像会用于表示整张图片的特征。然后对每个选出的框中的图片信息进行一个平均池化的操作，因为各个框的大小不同，所以平均池化之后的大小也是不同的，需要先找出最大的长宽，假设最大长宽为H和W，对于那些长宽不到H和W的，进行补0的操作，也就是在上下左右填充0，使其达到那个大小。假设选出了X个框，那么最后会获得X个H*W*3的像素矩阵（3表示红绿蓝三原色的亮度）。完成之后会按照从图片左上到右下的顺序对方框中的表征进行从左至右的排列，并进行concate（连接操作），成为一个矩阵，这个矩阵的长是H，宽是X*W，像素通道还是三个。

步骤S2：将所述检索文本转换为数字矩阵，根据所述数字矩阵提取初始文本特征，将所述数字矩阵与所述初始文本特征进行残差连接获得增强文本特征。

在该步骤中，先将检索文本转换为数字矩阵，从数字矩阵中提取出初始文本特征后，将数字矩阵与初始文本特征进行残差连接得到增强文本特征。

值得一提的是，通过残差连接的操作对初始文本特征进行增强，能帮助深度神经网络解决退化问题，并且能使其更快的收敛。

具体的，检索文本通过所述Albert预训练模型的编译器转换为数字矩阵后再根据所述数字矩阵提取初始文本特征，将初始文本特征输入卷积神经网络，通过对初始文本特征进行升维或者降维使初始文本特征与数字矩阵的大小相同，再将初始文本特征与数字矩阵相同位置的数值进行相加，输出增强文本特征。其中，初始文本特征是Albert预训练模型对于文字内涵的总结，包含了检索文本的各种特征，例如每个词的位置信息、词语的内涵、上下文本信息等等，可以用于后续的各种任务。

其中，Albert是根据著名的开源文字预训练模型BERT进行改进的轻量版预训练模型，在减少参数量的前提下，基本保留了BERT的性能。Albert模型能够进行无人监督的机器学习，也就是说不需要人工进行数据的标注，单使用网络爬取的数据就能进行任务训练。使用海量的网络数据进行训练，使得Albert能充分解析文字的内在逻辑和意义，使得网络具有强悍的泛化能力，所以在进行其他任务时，只使用少量标注数据进行微调就能达到极好的效果。而Albert又进行了网络参数上的优化，在维持原来效果的同时，大大减少了计算资源的使用。

在步骤S1中使用的用于图像检测的预训练模型和步骤S2中使用的Albert预训练模型都是需要通过训练数据进行任务预训练后才能得到对应的预训练模型。

具体的，对于用于提取检索文本的初始文本特征的预训练模型会进行配对的任务，也就是将部分图像原本的文本描述替换成其他图像的文本描述，比如说有一副大象的图像，本来的文本描述是“这是一只大象”，将文本描述随机替换成其他图像的描述，比如“这是一片草地”，使得该图像和其文本描述不相符，形成负面案例，没有替换过文本描述的作为正面案例。将第一特征矩阵注意力机制连接全连接层，经过交叉熵之后输出0或1，表示文本和图像是否为匹配的一对。

对于用于提取候选图像初始图像特征的目标检测模型，会将部分的图像和部分的文本使用特殊符号MASK进行掩盖，有15%的文本和图像会被掩盖，图像会有90%的几率被清空成0，剩下10%的几率保持不变。而对于文本，则会有80%变成MASK，10%变成随机的单词，10%不变。图像输出会先经过一个全连接层，然后产出一个概率分布，表示产出每个字的概率，来预测那个字。

而对于被掩盖的图像，我们依然会使用图像输出来连接全连接层，来预测图像的颜色分布。颜色分布含义是，图像的像素点由红绿蓝三原色组成，红绿蓝通过调整各自的亮度来获得不同颜色。亮度是从0到255。若对亮度进行统计，则可获得一个颜色的分布，比如亮度为0的绿色出现10词，亮度为1的绿色出现20次等等。而我们也会使用YOLOv5产出的正确答案（没经过掩盖的图像）来统计颜色分布，计算两者的KL散度作为损失。

步骤S3：将所述增强文本特征分别融合每一所述初始图像特征得到对应的第一特征矩阵，将所述初始文本特征分别融合每一所述初始图像特征得到对应的第二特征矩阵。

在该步骤中，主要是将检索文本与候选图像的特征进行交叉连接，使得两种模态的数据能够进行充分的数据交流，有效地利用检索文本与候选图像中的特征信息。其中，将增强文本特征分别融合每一初始图像特征可以得到对应的包含初始图像特征的第一特征矩阵，将初始文本特征分别融合每一初始图像特征得到对应的包含增强文字特征的第二特征矩阵。

具体的，“将所述增强文本特征分别融合每一所述初始图像特征得到对应的第一特征矩阵”包括：将所述增强文本特征转换为一维文本向量，通过全连接层使所述一维文本向量与所述初始图像特征大小相同后分别融合每一所述初始图像特征得到对应的第一特征矩阵。

并且，“将所述初始文本特征分别融合每一所述初始图像特征得到对应的第二特征矩阵”包括：将每一所述初始图像特征转化为对应的一维图像向量，通过全连接层使每一所述一维图像向量与所述初始文本特征大小相同后分别与所述初始文本特征相融合得到对应的第二特征矩阵。

步骤S4：将融合了相同初始图像特征的第二特征矩阵与第一特征矩阵同时输入特征交流网络得到对应的交流特征矩阵。

在该步骤中，主要是采用包括设计的特征交流网络来帮助融合了相同初始图像特征的第二特征矩阵和第一特征矩阵所表达的信息在两种模态之间进行交流。

其中，所述特征交流网络包括并行的文本处理网络和图像处理网络，所述文本处理网络和所述图像处理网络包括数量相同的transformer层，且所述transformer层依层级次序依次连接，并交换所述文本处理网络和所述图像处理网络对应的每一transformer层中的查询特征，所述查询特征由每一所述transformer层的输入进行线性变化得到。

本实施例中的特征交流网络结构如图2所示，包括并行的文本处理网络和图像处理网络。如果有依次连接的多个transformer层，除文本处理网络的第一个transformer层的输入为第一特征矩阵、图像处理网络的第二个transformer层的输入为第二特征矩阵外，其他所有transformer层的输入均为上一个transformer层的输出。

“将融合了相同初始图像特征的第二特征矩阵与第一特征矩阵同时输入特征交流网络得到对应的交流特征矩阵”包括：所述第一特征矩阵输入文本处理网络中的transformer层进行线性变化得到每个词的词查询特征、词关键特征、词值特征；所述第二特征矩阵输入图像处理网络的transformer层进行线性变化得到每个像素的像素查询特征、像素关键特征、像素值特征；交换对应同一层transformer层输出的词查询特征和像素查询特征；将待处理词的词查询特征和每一其余词的词关键特征进行线性变化得到对应每一其余词的词相关度，所述待处理词的词值特征和所有所述词相关度相乘后求和得到所述待处理词的词表达，遍历获取每一所述待处理词的词表达得到初始特征交流矩阵，转换所述初始特征交流矩阵得到交流特征数据。

具体的，将所述文本处理网络中每一所述transformer层的输入分别进行第一线性变化、第二线性变化、第三线性变化得到每个词的词查询特征（key）、词关键特征（value）、词值特征（query）；将所述图像处理网络中每一所述transformer层的输入分别进行第一线性变化、第二线性变化、第三线性变化得到每个图像的图像查询特征（key）、图像关键特征（value）、图像值特征（query）。

然后，换所述文本处理网络和所述图像处理网络对应的每一transformer层中的查询特征，也就是交换每个词的查询特征和每个像素的查询特征，将词与像素进行关联。

交换完成后，将每一个词依次当作待处理词输入多头注意力机制，获取待处理词的词表达。具体的，将待处理词的词查询特征和每一其余词的词关键特征进行线性变化得到对应每一其余词的词相关度，所述待处理词的词值特征和所有所述词相关度相乘后求和得到所述待处理词的词表达。

然后遍历获取每一所述待处理词的词表达得到初始特征交流矩阵，转换所述初始特征交流矩阵得到交流特征数据。具体的，转换方法是将所述初始特征交流矩阵依次进行残差连接、归一化操作、全连接、残差连接、归一化操作得到交流特征矩阵。转换方法同常规的transformer层相同，再此不过多赘述。

值得一提的是，通过交换词与像素的查询特征，将词和像素关联起来，每个词关联一个或多个像素，将所有词关联的像素组合起来形成检索文本的目标图像的特征，候选图像的初始图像特征一一与目标图像的特征进行匹配，选择匹配度最高或者高于设定阈值的候选图像作为该检索文本对应的目标图像。

例如，输入第一特征矩阵到文字处理网络产生每个词语的词查询特征（key）、词关键特征（value）、词值特征（query），并以同样的方式获取候选图像的图像查询特征（key）、图像关键特征（value）、图像值特征（query），交换词与像素的query后，将每个词依次作为待处理词，使用待处理词的query与每一其余词的key进行一个线性变化（可使用开源的线性回归模型），线性变化的结果表示这两个词语的相关度，将所有的相关度与自己这个词语的value相乘，再将所有乘法结果加起来，遍历获取每一所述待处理词的词表达得到初始特征交流矩阵，转换所述初始特征交流矩阵得到交流特征数据。

在一些具体实施例中，文本处理网络和所述图像处理网络还可以包括数量相同的多个transformer层以便于进行更多的信息交流。例如，经过实验和经验表明，采用依次连接的8个transformer层进行信息交流的效果最佳。

步骤S5：将所有所述交流特征矩阵输入头部预测网络以获取至少一目标图像。

在该步骤中，主要是通过使用头部预测网络来判断交流特征矩阵对应的文本和候选图像的匹配度，将匹配度最高或者匹配度超过设定阈值的候选图像作为目标图像输出。

将步骤1-步骤5作为一个整体的图像检索模型，构建训练任务来对已有的图像检索模型进行微调。因为原来的图像检索模型是基于样本数据进行训练，它的数据分布和实际中进行的图像检索的数据分布虽然相似，但却不完全相同，所以需要使用对应实际任务的图像数据进行再训练来调整分布，以达到最好的效果。

具体的，为图像检索模型设置选择题，包括了四个选项，选项类型是由图像和文本组成的数据对，其中三项的文本与图像是不匹配的，有一项为匹配的。将数据对输入按照实际任务训练的图像检索模型后，经过文本处理网络中最后一个transformer层并输出交流特征矩阵，将交流特征矩阵连接一个头部预测网络，也就是一个线性的全连接层，输出文本和图像的匹配度，获得每个数据对的匹配度后，将每个匹配度进行softmax操作，将匹配度最高或匹配度超过一定阈值的输出为目标图像。

实施例二

基于相同的构思，本实施例还提供了一种基于文本的图像检索装置，用于实现实施例一中所描述的基于文本的图像检索方法，具体参考图3，该装置包括以下模块：

实施例三

本实施例还提供了一种电子装置，参考图4，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述实施例中的任意一种基于文本的图像检索方法的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（Solid State Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerial Bus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（Random Access Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（Erasable Programmable Read-Only Memory，简称为EPROM）、电可擦除PROM（Electrically Erasable Programmable Read-Only Memory，简称为EEPROM）、电可改写ROM（Electrically Alterable Read-Only Memory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-Access Memory，简称为SRAM）或动态随机存取存储器（Dynamic Random AccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（Fast PageMode Dynamic Random Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic Random Access Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种基于文本的图像检索方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是当前数据表例如疫情流调文档、特征数据、模板表等，输出的信息可以是特征指纹、指纹模板、文本分类推荐信息、文件模板配置映射表、文件模板配置信息表等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

获取检索文本和多个候选图像的初始图像特征；

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例一中的任意一种基于文本的图像检索方法，本申请实施例可一种计算机程序产品来实现。该计算机程序产品该计算机程序产品包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述软件代码部分用于执行实现上述实施例一中的任意一种基于文本的图像检索方法。

并且，结合上述实施例一中的任意一种基于文本的图像检索方法，本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种基于文本的图像检索方法。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于文本的图像检索方法，其特征在于，包括以下步骤：

获取检索文本和多个候选图像的初始图像特征；

2.根据权利要求1所述的基于文本的图像检索方法，其特征在于，获取每一所述候选图像的初始图像特征的方法包括：采用标注过的训练图像对YOLOv5模型进行预训练，将每一所述候选图像输入预训练后的YOLOv5模型获得对应的初始图像特征。

3.根据权利要求1所述的基于文本的图像检索方法，其特征在于，“将所述检索文本转换为数字矩阵，根据所述数字矩阵提取初始文本特征”包括：将所述检索文本输入Albert预训练模型，通过所述Albert预训练模型的编译器转换为数字矩阵后再根据所述数字矩阵提取初始文本特征。

4.根据权利要求1所述的基于文本的图像检索方法，其特征在于，“将融合了相同初始图像特征的第二特征矩阵与第一特征矩阵同时输入特征交流网络得到对应的交流特征矩阵”包括：所述第一特征矩阵输入文本处理网络中的transformer层进行线性变化得到每个词的词查询特征、词关键特征、词值特征；所述第二特征矩阵输入图像处理网络的transformer层进行线性变化得到每个像素的像素查询特征、像素关键特征、像素值特征；交换对应同一层transformer层进行所述线性变化得到的词查询特征和像素查询特征；将待处理词的词查询特征和每一其余词的词关键特征进行线性变化得到对应每一其余词的词相关度，所述待处理词的词值特征和所有所述词相关度相乘后求和得到所述待处理词的词表达，遍历获取每一所述待处理词的词表达得到初始特征交流矩阵，转换所述初始特征交流矩阵得到交流特征数据。

5.根据权利要求4所述的基于文本的图像检索方法，其特征在于，将所述文本处理网络中每一所述transformer层的输入分别进行第一线性变化、第二线性变化、第三线性变化得到每个词的词查询特征、词关键特征、词值特征；将所述图像处理网络中每一所述transformer层的输入分别进行第一线性变化、第二线性变化、第三线性变化得到每个图像的图像查询特征、图像关键特征、图像值特征。

6.根据权利要求4所述的基于文本的图像检索方法，其特征在于，“转换所述初始特征交流矩阵得到交流特征数据”包括：将所述初始特征交流矩阵依次进行残差连接、归一化操作、全连接、残差连接、归一化操作得到交流特征矩阵。

7.根据权利要求1所述的基于文本的图像检索方法，其特征在于，“将所述数字矩阵与所述初始文本特征进行残差连接获得增强文本特征”包括：将所述初始文本特征输入卷积神经网络，对所述初始文本特征进行升维或降维使所述初始文本特征与所述数字矩阵的大小相同，再将所述初始文本特征与所述数字矩阵相同位置的数值进行相加，得到增强文本特征。

8.根据权利要求1所述的基于文本的图像检索方法，其特征在于，“将所述增强文本特征分别融合每一所述初始图像特征得到对应的第一特征矩阵”包括：将所述增强文本特征转换为一维文本向量，通过全连接层使所述一维文本向量与所述初始图像特征大小相同后分别融合每一所述初始图像特征得到对应的第一特征矩阵。

9.根据权利要求1所述的基于文本的图像检索方法，其特征在于，“将所述初始文本特征分别融合每一所述初始图像特征得到对应的第二特征矩阵”包括：将每一所述初始图像特征转化为对应的一维图像向量，通过全连接层使每一所述一维图像向量与所述初始文本特征大小相同后分别与所述初始文本特征相融合得到对应的第二特征矩阵。

10.一种基于文本的图像检索装置，其特征在于，包括以下模块：

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至9任一所述的基于文本的图像检索方法。

12.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至9任一项所述的基于文本的图像检索方法。